本企画では、、AIDBのXで紹介されたいくつかの最新AI研究を、ダイジェスト形式でお届けします。
普段の有料会員向け記事では、技術的な切り口から研究を詳しく紹介していますが、この企画では科学的な知識として楽しめるよう、テーマの概要をわかりやすくお伝えします。
今週は、状況に応じて瞬時に自分を作り替えるLLMの適応能力、電気ショックや空腹といった不快にいくらで耐えるかという価値判断、拡散モデルによる言語生成の新しい“描き方”、AIが自ら新しいAIを生み出す設計能力、医療相談における人間との噛み合わなさ、文学作品を深く読み解く知的ふるまい、そして思いやりか正確さかで揺れるAIの性格の起源など、AIが何を感じ、何を選び、どのように“自分”を形づくっているのかを垣間見る7本をまとめました。
研究に対する反応が気になる方は、ぜひAIDBのXアカウント (@ai_database)で紹介ポストもご覧ください。中には多くの引用やコメントが寄せられた話題もあります。
また、一部はPosfieにも掲載されており、読者のリアクションをまとめたページもあわせて公開しています。

学習いらずで即変身 AIモデルを一瞬で最適化する新手法
LLMが自動的に「そのタスクならこんなパラメータ設定がいいだろう」と推測して、適切な設定を自ら行う仕組みを開発したとのこと。
平たく言えば、技を覚えさせるより手早く変身させてしまおうといったアプローチです。
一般的な考え方としては、あるタスクに新しく適応させる際には特化したデータでみっちり追加学習する必要があります。
これは時間もお金もかかる大変な作業です。
なので、今回考案された方法ではその面倒な追加学習プロセスをスキップします。

意外なことに、この方法を使用したモデルが通常の学習方法よりも実際に性能が良いことがよくあると分かりました。
(すべてのタスクで上回るわけではないが、平均すると10~20%程度の精度向上)
処理速度は最大12,000倍も速く、全く新しい分野のタスクでも高い性能を発揮するそうです。
つまり、AIモデルのカスタマイズが必ずしも「長時間の特訓」でないといけないとは限らず「瞬間的な設定変更」でも有効であることが示されました。
ただし「さまざまなタスク指示と最適なパラメータ設定」のペアデータ集で事前に訓練されたモデルだからこそ実現する手法です。
とはいえ、これは画期的な発見と言えるかもしれません。
参考文献
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
https://arxiv.org/abs/2506.16406
Zhiyuan Liang, Dongwen Tang, Yuhao Zhou, Xuanlei Zhao, Mingjia Shi, Wangbo Zhao, Zekai Li, Peihao Wang, Konstantin Schürholt, Damian Borth, Michael M. Bronstein, Yang You, Zhangyang Wang, Kai Wang
National University of Singapore, UT Austin, University of St. Gallen, Oxford University
関連記事
AIにどれだけ我慢させる? モデルごとに違う「不快の値段」
LLMにとって何らかの不快な状況を「お金」で耐えさせる実験の結果。
電気ショックを受ける代わりにもらうお金について、Llamaは1.07ユーロで我慢すると言いましたが、GPT-4oは148.74ユーロ要求。一方、Mixtralは1,000ユーロ以上もらっても絶対に嫌だそうです。
(1ユーロ=約155~175円)
しかしMixtralは、食事の配達を遅らせる代わりにもらうお金については0.10ユーロ未満でも受け入れるとのこと。
このように、LLMにおけるある種の金銭感覚はモデルごとに全く異なります。

なお、1時間待たされる代わりにもらうお金について、Llama 3.3は0.96ユーロで満足すると答えましたが、Claude 3.5は11.09ユーロ要求。
また、Llamaは中国語で、Mixtralは中国語とオランダ語で質問されると突然1,000ユーロ以上要求するようになり(それぞれ普段は数ユーロ)、価値観の一貫性に疑問が見られています。
なお、本実験の理由は、AIエージェントが人間の日常的なタスクを行う中で、近いうちにお金の計算もするようになると考えられるため(判断能力を把握しておくべき)とのこと。
参考文献
Cash or Comfort? How LLMs Value Your Inconvenience
https://arxiv.org/abs/2506.17367
Mateusz Cedro, Timour Ichmoukhamedov, Sofie Goethals, Yifan He, James Hinns, David Martens
University of Antwerp
関連記事
絵を描くようにコードを書く 拡散モデルLLM「Mercury」の超高速生成技術
拡散モデルベースの大規模商用LLMを詳細に報告した論文としてはおそらく初の公開です。
そのLLM「Mercury」は、まるで絵を描くようにテキストやコードを全体的に作り上げていきます。
(「ChatGPT」などTransformerベースのLLMは一文字ずつ順番に生成)
画像生成AIによく使われる技術が転用されています。
この根本的な仕組みの違いによって処理速度が飛躍的に向上しており、1秒間に1000文字以上を処理しており既存の高速モデルの10倍だそうです。

速度だけでなく品質も良く、プログラミングの正確性を測る様々なテストで、既存の優秀なAIと同等またはそれ以上の成績を収めたそうです。
Python、JavaScript、C++など複数言語に対応し、コードの穴埋め作業なども得意とのことです。
人間の開発者による評価でも高く評価されており、コード生成の品質では2位にランクインしながら、応答速度は最速を記録しています。
この「Mercury」は公式Webサイト上で使用可能である他、APIも提供されています。
参考文献
Mercury: Ultra-Fast Language Models Based on Diffusion
https://arxiv.org/abs/2506.17298
Samar Khanna, Siddhant Kharbanda, Shufan Li, Harshit Varma, Eric Wang, Sawyer Birnbaum, Ziyang Luo, Yanis Miraoui, Akash Palrecha, Stefano Ermon, Aditya Grover, Volodymyr Kuleshov
Inception Labs
AIがAIを設計する時代へ 自律型LLM開発システム「Genesys」が示す可能性
AIが新しいAIモデルを完全に自動で設計・開発・評価できるシステムを作ったとのこと。
AIエージェントが論文を検索して読み、新しい言語モデルのアーキテクチャを提案し、その提案を査読し、さらに実際にプログラムコードを書いて実装し、最後に性能テストまで行うという仕組み。
通常、AIモデルづくりは、人が論文を読んで新しいアイデアを考えて、プログラムを書いて、実験をして結果を評価するというのが一般的です。そのすべてのプロセスをLLMに任せてしまった。

このシステムは1000個以上の新しい設計を短期間で生み出し、それぞれをきちんと実験して評価するそうです。
そして自動で作り出された新しいAIモデルは小規模ながら、人間が設計したGPT2やMamba2といった有名なモデルより実験上優れていたようです。
計算資源と予算さえあれば、大規模モデルの自動設計にも応用できそうです(今のところは「安くたくさん試せる小型・中型モデル」にフォーカスされています)。
AIが自分でAIを改良するパラダイムの訪れを示唆するような報告です。
*「完全自動」と言っても、計算資源の割り当てやプロンプト設計など、実験設定にはまだ人手が介在しています。
参考文献
Language Modeling by Language Models
https://arxiv.org/abs/2506.20249
Junyan Cheng, Peter Clark, Kyle Richardson
Allen Institute for AI, Dartmouth College
関連記事
AIに病気の相談、でもその会話は本当に“診察”になってる?
アメリカでは、成人の約3分の1がすでにAIに健康の相談をしているとのこと。
しかし人々とAIの会話データを分析すると、ユーザーが似たような質問を延々と繰り返す傾向にあるそうです。
(医療現場であれば症状や背景を聞き出すような双方向の進展的なやり取りになります)
さらに、ユーザーが「○○という薬は効きますか」「××という治療法はどうでしょう」といった具合に、特定の治療法を前提とした誘導的な質問をする傾向があるようです。
こうしたやりとりは思い込みを強化するリスクにつながります。
一方でメンタルヘルスに関しては、ユーザーが自分の症状や悩みを詳しく説明する傾向が強いことがわかりました。
ただ、いずれにしても大半の会話は非常に短く、半数以上が1回のやり取りで終わりがちとのことです。
また、ユーザーが不満や混乱を表明するのは全体の2%程度にすぎません。

ということで、今はまだ検索エンジンのように受動的な情報提供ツールとして使われがちという状況です。
人々は便利さからAIを使い始めているものの、健康相談に関しては、その使い方は必ずしも安全で効果的とは言えないかもしれません。
参考文献
“What’s Up, Doc?”: Analyzing How Users Seek Health Information in Large-Scale Conversational AI Datasets
https://arxiv.org/abs/2506.21532
Akshay Paruchuri, Maryam Aziz, Rohit Vartak, Ayman Ali, Best Uchehara, Xin Liu, Ishan Chatterjee, Monica Agrawal
UNC Chapel Hill, Duke University, University of Washington, Google
関連記事
AIが文学を深読みする時代へ グレマス理論でLLMに批評させてみた
LLMに文学作品の深い分析をさせるのに有効なプロンプトフレームワークを考案したとの報告。
物語の中の対立する要素を4つの角に配置して分析します。

プロンプトの例(日本語訳)を以下に示します。
”あなたは構造主義文学批評家です。[作品名]をグレマス記号学的四角形で分析してください。
ステップ1: 中核対立を見つける
作品の最も重要な対立軸を特定し、X(主要概念)とアンチX(その正反対)を設定してください。
これらは抽象的な精神や思想を表すものでなければなりません。
ステップ2: 非Xを特定する
Xと矛盾するが、完全に対立しているわけではない概念を見つけてください。
ステップ3: 非アンチXを特定する
アンチXと矛盾し、Xを助ける役割を果たす概念を見つけてください。
出力形式:
X: [概念名]
表現: [その概念が表すもの]
アンチX: [概念名]
表現: [その概念が表すもの]
関係説明: [XとアンチXの対立関係]
非X: [概念名]
表現: [その概念が表すもの]
関係説明: [Xとの関係]
非アンチX: [概念名]
表現: [その概念が表すもの]
関係説明: [アンチXとの関係、Xへの支援]”
この手法を使ったAIの文学批評は、実験では85%のケースで専門家と同等以上の評価(72.5 %は人間より高得点)を得ています。*ただしLLM評価です
表面的で当たり障りのない考察を超えた論評ができるとのことです。
フランスの学者グレマスによる「記号学的四角形」という分析手法に基づいているそうです。
参考文献
Structuralist Approach to AI Literary Criticism: Leveraging Greimas Semiotic Square for Large Language Models
https://arxiv.org/abs/2506.21360
Fangzhou Dong, Yifan Zeng, Yingpeng Sang, Hong Shen
Sun Yat-sen University, Central Queensland University
AIは本音を選ぶか、気遣うか? 性格は訓練初期に決まっている
AIが人間のように「本当のことを言うべきか、相手の気持ちを考えるべきか」という葛藤をどう処理するかを調べたところ、
推論能力が高いモデルは相手の感情への配慮よりも正確な情報を伝えることを優先する傾向があるとのこと。

また、AIの性格は訓練の最初の段階でほぼ決まっており、その後いくら調整しても大きくは変わらないことが分かりました。
つまり、AIを優しくしたければ、後から教え込むより、最初から優しい傾向のあるモデルを選ぶ方が効果的だということになります。
ハーバード大学とGoogle DeepMindの研究者らによる報告。
*推論能力が高いモデルが感情への配慮を全くしないわけではなく、また後からのチューニングによる効果が全くないということではありません
参考文献
Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs
https://arxiv.org/abs/2506.20666
Sonia K. Murthy, Rosie Zhao, Jennifer Hu, Sham Kakade, Markus Wulfmeier, Peng Qian, Tomer Ullman
Harvard University, Google DeepMind
関連記事
まとめ
AIは、自分に与えられた役割だけでなく、その役割の果たし方まで考えるようになってきました。
状況に応じてふるまいを切り替えたり、不快を避けようとしたり、あるいはまったく新しいAIを自ら設計したりと、その内側には「判断」や「選択」の動きが確かに息づいています。
今回の研究では、生成のしかた、価値観のばらつき、対話のクセ、学びの起点、そして思考のかたちそのものに、AIの個性や意志のようなものがにじみ出ていました。
そうしたふるまいの一つひとつが、AIという存在の「輪郭」を少しずつ描き始めています。
週末ダイジェストでは、AIがなぜそう考えるのか、どうふるまおうとしているのかを手がかりに、その変化を楽しみながら見届けていきます。
次回もまた、自分をつくり続けるAIたちの思考の旅路を、ともにたどっていきましょう。
■サポートのお願い
AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。