LLMは空間と時間を理解する”世界モデル”か

2023.10.06

世界モデル（世界モデル、シミュレーション、物理理解）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

LLMはシンプルに統計（確率）から次のテキストを生成しているのではなく、「物事がどのように位置づけられ、時間がどのように進行するかを理解」している可能性が示唆されました。

つまり、LLMが”世界モデル”を形成しているかもしれないという報告です。

MITの研究者らにより発表されました。
○ Wes Gurnee et al., “Language Models Represent Space and Time”

大規模言語モデル（LLM）は、訓練時には確かに「テキストの次のトークンを予測する」ために学習が行われています。
しかし、モデルは”理解”に似た能力を示しています。
にも関わらず、「何をどう理解しているのか」は不明確でした。

そこで研究者らはモデルの「空間と時間に対する理解」を調査することで答えの一部を導き出そうとしています。

■研究方法
① 世界、米国、NYCの地名、歴史的人物、芸術作品、ニュースヘッドラインなどを含む6つのデータセットを用意
② Llama-2ファミリーのモデルを使用
③ 線形回帰プローブ（補助的なモデル）※を訓練

※線形回帰プローブ：モデルの内部状態（活性化）から目的変数（この場合は空間や時間の情報）を予測するための線形（直線的な関係性）モデル

■実験結果
① 線形プローブは非線形プローブより優れていた
② 空間と時間の理解度は、LLMのニューラルネットワークにおける階層を半分まで進んだところで品質が向上し、そのあと限界点に達する

→つまり、空間や時間の情報と内部活性化には直線的な関係性が有意に存在した

■研究者らの考察と結論
① LLMは、空間と時間に関する情報を理解している可能性が高い
② LLMが単なる表面的な統計ではなく、より深い「世界モデル」を学習している可能性があるという仮説が有力である

□今後の展望と考慮すべき点
LLMが「世界モデル」を形成している可能性が高いのであれば、LLMがより高度な認知タスクに対応できることに繋がります。
例えば自動運転車のソフトウェアにLLMを活用するのは優れた戦略である可能性があります。

一方で、現実世界は非線形な要素が多く、それを線形のモデルで表現することには限界があります。
そのため、LLMが現実世界の複雑な要素を理解するにはまだ研究開発が必要かもしれません、

本研究の方法論が別のモデルでも適用されること、さらなる結果が待たれます。

Language Models Represent Space and Time

著者: 著者：Wes Gurnee, Max Tegmark

こちらもどうぞ