コンパクトでも冴える頭脳 会話評価、数理探索、そして作曲
本企画では、AIDBのXで紹介されたいくつかの最新AI研究を、ダイジェスト形式でお届けします。
普段の有料会員向け記事では、技術的な切り口から研究を詳しく紹介していますが、この企画では科学的な知識として楽しめるよう、テーマの概要をわかりやすくお伝えします。
今週は、使い道の広がりと効率化の両輪が一気に進んでいる様子が見えました。ASDの会話練習をAIが採点し、人と同等の評価を出す例、催眠に似た“自動操縦”としてのLLM観、心理学の枠組みでSNSからMBTIを当てる工夫、解法を育てる進化型数学、動画で“描きながら考える”推論、言葉からMIDIを直生成する作曲、そして性能を半分のサイズで実現していく効率化の法則まで、実装と設計の最前線をまとめました。
研究に対する反応が気になる方は、ぜひAIDBのXアカウント (@ai_database)で紹介ポストもご覧ください。中には多くの引用やコメントが寄せられた話題もあります。
また、一部はPosfieにも掲載されており、読者のリアクションをまとめたページもあわせて公開しています。

ゲームで練習、AIが採点。ASDの“会話力”を人と同じ目で評価
ASDの人がコミュニケーションを練習するゲームを作り、ゲーム結果からGPT-4oがプレイヤーを評価できるかを検証したところ
GPT-4oの評価は経験豊富な臨床心理士たちの評価とほとんど同じだったそうです。

背景として、ASDの人は皮肉や冗談、遠回しな言い方などを理解するのが苦手なことが多いと考えられています。
研究チームは、そういった社会的な場面をゲーム化しました。例えば、上司が部下に皮肉を言う場面や、誰かが失礼なことを言ってしまう場面など。
その結果、GPT-4oがプレイヤーの回答を評価した際に、皮肉の理解、間接的な提案の理解、嘘の検出など、どの種類の課題でも人間の専門家と同等の評価ができていたそうです。
実際に臨床現場で使う前にはさらなる検証が必要であることには注意が必要ですが、それでもこうした「コミュニケーションの練習」においてLLMがうまく使えそうであるのは良いニュースです。
参考文献
Large language models for autism: evaluating theory of mind tasks in a gamified environment
https://www.nature.com/articles/s41598-025-18608-4
Christian Poglitsch, Anna Reiss, Selina C. Wriessnegger & Johanna Pirker
Graz University of Technology, Technical University of Munich
関連記事
意識は薄く、反応は速い?催眠状態とLLMの不思議な共通点
抽象的な話ですが、「”催眠状態にある人間”とLLMが似たような仕組みで動いている」という主張がなされています。

催眠にかかった人は、意識的に行動せず、暗示に従って反応します。行動は起きるけれど「自分がやっている」という感覚が薄れます。
そしてLLMも機能的に同様の特徴を示す、
というのです。
さらに両者とも、目の前の状況や言葉に極端に影響されやすいという特徴があります。
催眠状態の人は暗示の内容に引っ張られて、あり得ない記憶を信じ込んだり、論理的に矛盾する内容を受け入れたりします。
LLMも同様で、プロンプトの言い回しを少し変えるだけで全く違う答えを出したり、間違った前提を与えられるとそれを疑わずに話を続けたりします。
つまり、どちらも「自動操縦モード」で成果を出せるけれど、それを自分でチェックする力が弱いか欠けているという共通点があります。
このアナロジー的な仮説がなぜ意味を持つかというと、今後必要となるLLMは、自律的で、自己反省も進んで行うものであるべきという議論につながるからです。
(ただし、LLMに主観的な意識を持たせたいという話とはまた少し違います)
参考文献
Automatic Minds: Cognitive Parallels Between Hypnotic States and Large Language Model Processing
https://arxiv.org/abs/2511.01363
Giuseppe Riva, Brenda K. Wiederhold, Fabrizia Mantovani
Istituto Auxologico Italiano, Università Cattolica del Sacro Cuore, Virtual Reality Medical Center, Virtual Reality Medical Institute, University of Milano-Bicocca
「この人らしさ」を集めて比べる MBTI判定が36から71にアップ
LLMを使用してSNSの投稿文からその人のMBTI性格タイプを判定する精度を大幅に向上させたとの報告。
なおMBTIは回答人口が増えているためデータ分析の良い対象になりつつあるようです。(学術的に主流なのはビッグファイブ)

研究チームは、「人間が何かを判断する時に
典型的な例と比較して決める」という心理学の知見をLLMのワークフローに応用しました。
過去の投稿データから性格タイプに当てはまる典型的な例を抽出し、新しい投稿を判定する時に照らし合わせるという流れ。
こうした工夫で、精度が36%から71%まで向上したとのことです。
面白いのは、人間の性格を判定する際の方法論自体に心理学的なフレームワークを活用できたということです。
参考文献
Cognitive Alignment in Personality Reasoning: Leveraging Prototype Theory for MBTI Inference
https://arxiv.org/abs/2511.00115
Haoyuan Li, Yuanbo Tong, Yuchen Li, Zirui Wang, Chunhou Liu, Jiamou Liu
The University of Auckland
解き方そのものを育てる 進化で挑む難問数学
Google DeepMindなどの研究者らが『AlphaEvolve』を多角的に検証した結果を報告しています。
AlphaEvolveとは難問を解くとき「答えそのもの」を計算するのではなく「答えを見つけるための手段」をたくさん作り出し、優れたものを選んで改良していく新しい技術です。
生物の進化のように、
何世代も繰り返すうちに、どんどん賢い探索プログラムができあがっていくそうです。
そのため最終的に残るのは人間が読んで理解できるプログラムの形になっているため、他の問題にも応用でき、なぜその答えにたどり着いたのか後から検証できると考えられています。

実際の成果は印象的です。たとえば100年以上前からある「11次元空間で球を並べたとき、1つの球に何個まで他の球を接触させられるか」という問題では、長年破られなかった記録が更新されました。
他にも、球の表面に点をバランスよく配置する問題や、電荷が反発し合いながら安定する配置を探す古典的テストでも、これまでの最高記録に匹敵する結果を出したそうです。
もちろん限界もあり、まったく新しい発想が必要な超難問では苦戦するため、研究チームも得意不得意を見極めながら使っています。
それでも、短期間で多くの分野の問題に対応でき、発見と検証のサイクル全体を回せることを示しています。
参考文献
Mathematical exploration and discovery at scale
https://arxiv.org/abs/2511.02864
Bogdan Georgiev, Javier Gómez-Serrano, Terence Tao, Adam Zsolt Wagner
Google DeepMind, Brown University, Institute for Advanced Study, UCLA
手を動かすように推論する 動画生成でパズルに挑む
研究者らによると、動画生成モデル『Sora 2』は「描きながら考える」タスクではGPT-5やClaude、Geminiといった最先端モデルよりも優れている場合があるそうです。

例えば幾何学的なパズルで、実際に線を引いたり図形を描いたりしながら問題を解きました。
また別の光の反射経路を求める問題では、動画の中で光の道筋を正確に描き出して正解を導きました。
しかし注意したい点として、最終的な答えは正しくても、途中の計算や説明が判読不能だったり論理的におかしかったりするケースが少なくないとのこと。
研究チームは、この「動画で考える」パラダイムが、テキストと画像という別々のモダリティを統合する新しい推論の枠組みになる可能性があると考えています。
ただし現時点では、その能力がどこまで本物の推論なのか、まだ分かりません。
参考文献
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
https://arxiv.org/abs/2511.04570
Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
Fudan University, Shanghai Innovation Institute, Harbin Institute of Technology, The Chinese University of Hong Kong
音符を言葉として学習 指定どおりに速く作る作曲モデル
MITの研究者らは、言葉で指示するとMIDI形式の音楽を生成できる言語モデル『MIDI-LLM』を開発。
「こういう音楽を作って」と伝えると直接音楽データを生成。これは統一規格です(楽器に転送できる)。
面白いことに、「もともとある言語モデルに音楽の知識を追加する」アプローチを取っています。
一つの音符を「開始時刻」「長さ」「楽器・音高」の3つの情報で表現し、これを言語モデルに教え込んでいます。
こうした工夫により、指示に忠実な音楽を生成できるように、しかも生成速度が大幅に速くなったそうです。

この技術はいわば「Text-to-MIDI」と呼ばれており、編集の柔軟さが評価されています。
実際に音楽を生成できるウェブページが公開されています。試してみてはいかがでしょうか。
参考文献
MIDI-LLM: Adapting Large Language Models for Text-to-MIDI Music Generation
https://arxiv.org/abs/2511.03942
Shih-Lun Wu, Yoon Kim, Cheng-Zhi Anna Huang
MIT
関連記事
能力密度の伸びが止まらない スマホ実装がぐっと近づく
LLMにおいて同じ性能を出すのに必要なサイズが、約3ヶ月半ごとに半分になっている傾向を示す『密度化の法則』が「Nature Machine Intelligence」誌で発表されました。
同じ価格のチップで動かせるLLMの実質的な能力(能力密度)が、3ヶ月弱ごとに2倍になっている計算になります。

LLMの利用コストが急速に下がっていることを意味するため、ユーザーにとって非常に良いニュースです。
この効率化は単にモデルを小さくする技術だけで実現されているわけではなく、主に訓練データの量と質が改善されることで起きていると述べられています。
背景には、業界への投資が急増し、多くの高品質なオープンソースモデルが公開されるようになったことがあります。
この傾向がハードウェアの進化と組み合わさることで、スマートフォンのような小型デバイスで、高性能なLLMを動かせる未来が急速に近づいています。
なお、原題のdensing lawを密度化の法則と和訳しました。また、本論文は査読前にもarXivで公開されていました。
参考文献
Densing law of LLMs
https://www.nature.com/articles/s42256-025-01137-0
Chaojun Xiao, Jie Cai, Weilin Zhao, Biyuan Lin, Guoyang Zeng, Jie Zhou, Zhi Zheng, Xu Han, Zhiyuan Liu & Maosong Sun
Tsinghua University, Beijing National Research Center for Information Science and Technology, OpenBMB
まとめ
AIがふるまいを設計して演じるほど、人に近い理解と協調に近づくという示唆がありました。思考の段取りを可視化し、あとから検証できる形で成果を残す設計が、精度と信頼を高めます。サイズの大きさよりも、どう考えさせてどう使うかが要となっています。効率の進歩も相まって、身近なデバイスでの高度な活用が現実味を帯びてきました。
来週も、AIと人のあいだに生まれる問いと発見を追っていきましょう。
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。


PAGE TOP