
コードを書いたり、バグを直したりするAIエージェントは、ソフト開発の現場で、かなりの実力を見せるようになってきました。
ただ、今のエージェントには一つ特徴があって、コードもドキュメントも、動かした結果も、すべて文字列の並びに変換して読み取っています。一方で、私たち人間の開発者はどうしているかというと、プロジェクトのコード一式、これをリポジトリと呼びますが、それを目で見て理解しています。フォルダの階層や、ファイル同士のつながり、色分け表示から、たくさんの意味を読み取っているわけです。このように人間とエージェントの間には、リポジトリの理解の仕方に、大きな隔たりがあるんですね。
ファイル同士のつながりのような構造は、本来は図のように、線形ではない情報です。これを文字列に直すと、一度バラバラにほどいて、頭の中で組み立て直す必要があります。処理できる量が限られる中では、これがかなりの負担です。これまでもコードの構造をグラフで表す研究はありましたが、モデルに渡す段階で文字列に並べ替えてしまうので、せっかくのつながりの情報が抜け落ちがちでした。
そこで出てくるのが、画像という選択肢です。画像でリポジトリを見せれば、レイアウトやまとまり具合といった、文字列では表しにくい手がかりを、そのまま渡せます。同じ分量で、より多くの情報を伝えられる可能性もあるわけです。ちょうど、画像と文章を同時に扱えるモデルが急速に進歩したこともあって、視覚情報がリポジトリ理解に役立つのか、という問いが現実味を帯びてきました。そこで本記事では、リポジトリ規模の作業に視覚情報を使う効果を、体系的に検証した事例を取り上げます。