LLMで科学的ベクター画像を生成 AutomaTikZ

2023.10.15

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMを活用し人間のように科学的な図を生成するツール『AutomaTikZ』が開発されました。
ベクターグラフィックスのため縮小・拡大しても解像度に問題が出ません。

LLMは科学的な図を生成することにも有用であると結論づけられています。

下記論文で発表され実行コードも公開されています。
○ Jonas Belouadi et al., “AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with TikZ”

テキストから画像を生成する既存方法のほとんどはラスターグラフィックス（ピクセルの集合体）であり、解像度に依存します。
可読性が重要な科学的用途には向かないといった課題がありました。

そこで研究者らはLLMを使用したベクターグラフィックス（幾何学で表現される図）生成フレームワークを開発しました。

■『AutomaTikZ』フレームワーク
① テキストから科学的なベクターグラフィックスを生成する
② LLaMAをDaTikZデータセットで微調整
③ CLIPでテキストと画像の整合性を向上させたLLaMA改造モデル『CLiMA』も開発

■実験・調査方法
① LLaMAとCLiMAの性能を一般的なLLM（GPT-4、Claude 2）と比較
② 自動評価と人間による評価を用いて、生成された図が人間が作成した図にどれだけ近いかを評価

■実験の結果
① LLaMAとCLiMAは、GPT-4とClaude 2よりも人間が作成した図に近い結果を出す
② 新しいタイプの指示にも対応できる

■研究者らによる主な結論
① AutomaTikZは、科学的なベクターグラフィックスを効率的に生成する
② LLMは科学的な図を生成するのにも役に立つ

□注意点を考察
① 実世界でどれほど役立つのか長期的な検証が必要
② 他のLLMとの比較、他のタスクやデータセットでの性能はさらに検証が必要
③ CLIPの制約や限界に依存する

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ