本企画では、AIDBのX (旧Twitter) で紹介されたいくつかの最新AI研究を、ダイジェスト形式でお届けします。
普段の有料会員向け記事では、技術的な切り口から研究を詳しく紹介していますが、この企画では科学的な知識として楽しめるよう、テーマの概要をわかりやすくお伝えします。
今週は、「AIの知能とそのクセ」に関する注目研究を6本まとめました。
ハードウェアが進化しなくてもアルゴリズムだけでLLMは進歩できるという報告、物語がAIの協調行動に影響を与える実験、LLMに新しい知識を与えると既存の情報まで塗り替わる“知識の暴走”、評価ランキングに潜むバイアスの問題、ゲーム世界を自然言語で自動生成する手法、そして文章をわかりやすく言い換えることで理解度が向上する研究など、多角的にAIのふるまいを探る内容となっています。
研究に対する反応が気になる方は、ぜひAIDBのXアカウント (@ai_database)で紹介ポストもご覧ください。中には多くの引用やコメントが寄せられた話題もあります。
また、一部はPosfieにも掲載されており、読者のリアクションをまとめたページもあわせて公開しています。

本当に強いAIは誰が決める?Chatbot Arenaのランキングに潜む偏り
新しいLLMが発表されるとき「Chatbot Arena(チャットボットアリーナ)で○位を獲得」といった宣伝がよく行われています。 ところが最近の調査(プリンストン大学、スタンフォード大学、MITなど)によると、そのランキングは必ずしも公正に機能していないそうです。
Chatbot Arenaは二つのAIの回答を比べて”どちらが良いか”投票されスコアがつく仕組みです。もともとは全てのLLMを公平に評価する場として作られたものの、「現状は一部の企業に有利な仕組みになっている」とのこと。
偏りが放置されれば「優秀と聞いたから導入したのに思ったほど良くない」「安全だと信じていたのに不具合が出た」といった形で、ユーザーにも影響が及びかねません。

現状、GoogleやMeta、OpenAIなどの大手企業は特別扱いされており、何十ものモデルを非公開でテストし、その中から最も良い成績のものだけを公開できるようになっているそうです。
これが本当なら、一部のチームだけが何度も非公開の試合をしてベストな結果だけを公式記録に残せるようなものです。
さらに大手のモデルはユーザー評価データを他社より多く受け取っており、例えばGoogleとOpenAIだけで、他のモデルすべてを合わせるよりも沢山のデータを得ているそうです。
そしてアリーナのデータをモデルを学習させるとアリーナでの勝率が格段に上がるため、ランキングで有利になる構造ができあがっていると言うのです。
なお著者らは論文内でChatbot Arenaの改善点を具体的に示し、事態の改善を促しています。
参考文献
The Leaderboard Illusion
https://doi.org/10.48550/arXiv.2504.20879
Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D’Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
Cohere Labs, Cohere, Princeton University, Stanford University, University of Waterloo, Massachusetts Institute of Technology, Allen Institute for Artificial Intelligence, University of Washington
関連記事
専門的な文章も、AIの力でもっとわかりやすく
結論から言うと、専門用語が多くて読みにくい文章をLLMが書き換えることにより、内容の理解度が確実に上がるそうです。
とくに医学論文のような難解な文章で活用すると、最大約15%も理解度が改善するケースもあるとのこと。ほか、さまざまな分野で効果が確認されました。
Googleの研究チームによる報告です。

実験では約4500人に対して、もとの難解な文章かLLMが易しく書き直した文章のどちらかを読んでもらいクイズが行われました。すると言い換え版を読んだ人の方が正答率が高く、自身も高く、また”問題文への理解度もアップ”していたそうです。
ただし、書き換えを行う際にはもとの文章の意味を損なわないように注意が必要です。
その点に気を配りつつ、医療だけでなく法律や金融など皆にとって重要だが難解な情報へのアクセスが広がることが期待されています。
参考文献
LLM-based Text Simplification and its Effect on User Comprehension and Cognitive Load
https://doi.org/10.48550/arXiv.2505.01980
Theo Guidroz, Diego Ardila, Jimmy Li, Adam Mansour, Paul Jhun, Nina Gonzalez, Xiang Ji, Mike Sanchez, Sujay Kakarmath, Mathias MJ Bellaiche, Miguel Ángel Garrido, Faruk Ahmed, Divyansh Choudhary, Jay Hartford, Chenwei Xu, Henry Javier Serrano Echeverria, Yifan Wang, Jeff Shaffer, Eric (Yifan)Cao, Yossi Matias, Avinatan Hassidim, Dale R Webster, Yun Liu, Sho Fujiwara, Peggy Bui, Quang Duong
関連記事
プレイヤーの想像がそのままゲームに LLMが創る新しい物語生成エンジン「STORY2GAME」
LLMを活用してアイデアからゲームの世界を作り上げる「STORY2GAME」が提案されています。
プレイヤーの思いつきにその場で応じて展開が自然に変わっていく新しいゲーム体験をもたらす可能性を示唆しています。
たとえばプレイヤーが「バケツを壊す」といった行動を選んだ場合、「それを実行するには何が必要か」「壊したあとにどんな影響があるか」といった情報が推論され、ゲームの世界に反映されます。
人が普段頭の中でしている「こうするとどうなるか」を考える流れを模倣している点が特徴です。
あらかじめ選択肢が決められたゲームとは違い、自由度と整合性の両立が可能になるとのこと。

実験では、実際に動的生成されたコードの80%近くがコンパイルに成功するなど実証も進んでいます。
ゲーム制作時には人が最低限のアイデアを用意し、その内容に合わせてキャラや場所、アイテム、プレイヤーが取り得る行動やその結果までが自動的に決まるようです。
ゲームデザインに新たな可能性です。
参考文献
STORY2GAME: Generating (Almost) Everything in an Interactive Fiction Game
https://doi.org/10.48550/arXiv.2505.03547
Eric Zhou, Shreyas Basavatia, Moontashir Siam, Zexin Chen, Mark O. Riedl
Georgia Institute of Technology
関連記事
AIはチップなしでも進化する? ハードウェアに頼らないLLMの可能性
ハードウェアが仮に進化しなくてもAIの進歩は止まらないだろうと報告されています。
これまでのAI技術の進歩を振り返ると、コンピューター性能が必要な技術だけでなく、どんな性能のマシンでも効果が出る技術もはっきり存在するのが理由の一つとのこと。
また、例えばDeepSeekが高性能なチップを使わずに強力な能力を示しているように、ハードウェアの制約があってもLLMはアルゴリズムにより進化するようです。
しかも、優れたアルゴリズムそのものもAIによって自動開発される可能性があります。
Googleの研究者は、今後そうした「AIがAIを改良する」展開により分野の発展速度は100倍にもなるかもしれないと述べています。

現在、米国はコンピューターチップの輸出を制限していますが、一部ではこの規制がAI開発の足枷になるのではと考えられています。しかし、果たして本当にそうなのでしょうか?
研究者らいわく、おそらく答えはノーであり、もし本当にAIの進歩を止めたいのならばアルゴリズム開発の動向を含めて対策する必要があるそうです。
(ただし「発展は完全には止まらないが、ハードウェア制限は依然として進歩を遅らせる」とも述べられています)
参考文献
LLM-e Guess: Can LLMs Capabilities Advance Without Hardware Progress?
https://doi.org/10.48550/arXiv.2505.04075
Teddy Foley, Spencer Guo, Henry Josephson, Anqi Qu, Jack Sanderson
The University of Chicago
関連記事
LLMは驚きすぎると壊れる? 意外な情報が引き起こす“知識の暴走”とは
LLMにとって仰天する情報を学ばせると、内部で変に広がってしまうことが明らかになりました。Google DeepMindによる報告。
たとえば「バナナの色は朱色」というありえない情報を学ばせると、その後「砂の色は?」という全く関係ない問いにも「朱色」と答えてしまうようになることがあるようです。
つまり、新しい知識を加えようとするその瞬間に、知らないうちに別の知識まで塗り替えてしまう可能性があるということです。

この現象は「プライミング効果」と呼ばれ、モデルにとって意外な情報であるほど傾向が強まるそうです。PALM-2やGemma、Llamaといった複数のモデルにおいて一貫して観察されたとのこと。
幸いにもこの問題に対処する方法はあり、例えば「モデルが驚くような情報をいきなり教えるのではなく関連する内容を挟んで少しずつ導入すること」は有効です。
また、意外性の度合いを測れば、現象の強さを事前にかなり正確に予測できるとのことです。
LLMに新しい知識を覚えさせるのは、単純にデータが追加されるようなわかりやすい話ではないようです。
他の知識を壊したり、想定外の場面で現れたりしないようにする必要があります。
参考文献
How new data permeates LLM knowledge and how to dilute it
https://doi.org/10.48550/arXiv.2504.09522
Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
Google DeepMind
関連記事
AIにも“物語”が効く?語りかけでエージェントの協力行動が変わるという実験結果
ユヴァル・ノア・ハラリは『サピエンス全史』の中で「人類が大規模な協力を実現できたのは物語の力による」と述べています。
そんなハラリの仮説をAIの世界に持ち込み、「AIエージェントに物語を聞かせることで、協力行動は促されるのか?」という実験が行われました。
AIエージェントたちにさまざまな異なる短い物語を聞かせたうえで、「公共財ゲーム」が行われました。
資源を自分のために使うか、全体のために出し合うかを選ぶゲームです。

結果は明快でした。
全員が協力を信じる物語を聞いたグループでは、AI同士がより協力的にふるまい、全体の成果も高まりました。
一方で、バラバラな物語を聞かされたり、なかに自己の利益を追求するよう仕向けられたエージェントがいる場合、協力は崩れ、利己的な行動が目立つようになりました。
この結果から、AIエージェントも「どんな語りかけを受けるか」によって行動が変わるということが示されたとのことです。人間と同じく、文脈や物語のフレーミングが集団行動に影響する可能性があるということです。
ただし、研究チームはこの結果を「AIが物語に感動した」とは捉えていません。モデルはあくまで学習済みの言語パターンに反応しているに過ぎないかもしれない、と冷静な見方も添えています。
とはいえ、将来的に複数のAIが共存する社会を考えるうえで「どのような語りでAIを導くか」は本質的な問いになるかもしれません。
ハラリの仮説の中では、国家、宗教、貨幣など人々が信じる「フィクション」が、協力を支える土台となってきたというのです。人とAIが共存する時代においては、どのような変化が訪れるでしょうか。
参考文献
The Power of Stories: Narrative Priming Shapes How LLM Agents Collaborate and Compete
https://doi.org/10.48550/arXiv.2505.03961
Gerrit Großmann, Larisa Ivanova, Sai Leela Poduru, Mohaddeseh Tabrizian, Islam Mesabah, David A. Selby, Sebastian J. Vollmer
German Research Center for Artificial Intelligence (DFKI), University of Kaiserslautern–Landau (RPTU), Saarland University
関連記事
まとめ
AIがどのように知識を取り込み、振る舞いを変え、時に予想外のミスを起こすのか。そんな“内面”のしくみを知ることは、これからのAIとの付き合い方を見直すヒントになるかもしれません。
週末ダイジェストでは、最新の研究から生まれる気づきや問いを、誰でも楽しめる形でお届けしています。
来週もまた、AIの進化とその裏側を一緒に追いかけていきましょう。
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。