LLMで図表を生成 DiagrammerGPT登場

2023.10.20

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

電気回路図などの図表をテキストのみから生み出すLLM駆動のフレームワーク『DiagrammerGPT（ダイアグラマーGPT）』が登場しました。

多数の関係性を整理し、綺麗なレイアウトで、正しい情報を持つ図とキャプションを自動で生成することが可能とのこと。

ノースカロライナ大学の研究者らによる開発です。
@ Abhay Zala et al., “DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning”

テキストからイメージを生成する（T2I）モデルは進化していますが、図表（ダイアグラム）の生成に適したモデルは殆どありません。
現存するT2Iモデルは、多くのオブジェクトが密接に関連する場合に、オブジェクトのレイアウトを調整する能力が不足しているとも言われています。

そこで研究者らはLLMを使用して、レイアウトが整った図表の生成と調整を実現する『DiagrammerGPT（ダイアグラマーGPT）』を開発しました。

■『DiagrammerGPT』のフレームワーク
下記2段階で構成されています。
① LLM（GPT-4）が図表のレイアウトを計画
② DiagramGLIGENがその計画に基づいて図表を生成

■性能の実験
① AI2D-Captionという新しいデータセットを使用
② 量的および質的な分析を行い、人間の好みの研究も実施

■実験の結果
DiagrammerGPTは、既存のT2Iモデル（DALL•E 3、AutomaTikZ）よりも高い精度で図表を生成できました。
実際に生成できることが確認された図の例：
天文図、生物の生命サイクル図、地質の構造図、電気回路図、パワーポイントスライド

■DALL•E3に対するDiagrammerGPTの優位性
下記は図表を生成するタスクでDALL•E3に見られた現象です。
① 生成された画像は美しいが、冗長で混雑したオブジェクト（例：過剰な不必要なテキスト説明）を生成する傾向がある
② プロンプトに従った正確な図表を生成するのに苦労する
③ 図表に科学的に不正確な情報を生成することもある

■実装方法や使い方
公開されているGitHubページより必要なインストールを行います（レポジトリを更新中）。

■注意点
画像変換時に時折誤りを犯すことがありますが、最終的な図表は人間が手動で編集し仕上げることも可能です。

📄 参照論文

論文情報と関連研究

著者: DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning

📎 論文を読む（arxiv.org）

X（Twitter）で見る

LLMで図表を生成 DiagrammerGPT登場

📄 参照論文

こちらもどうぞ

🔒 LLMにキャラクターの話し方だけでなく「キャラ独自の内面の思考プロセス」も模倣させる手法

🔒 LLMの推論能力を向上させるプロンプトベースの綿密なフレームワーク