LLMの言語間ギャップは知識不足ではない

2025.10.202026.01.31

言語・翻訳（多言語、翻訳、言語理解）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

Googleの研究者らによると、LLMにどの言語で質問するかで回答の安定性がブレるときでも、「知識自体が言語に依存しているわけではない」そうです。

例えば、英語ではほぼ確実に正解を導き出す質問でも日本語では正解したり誤答になったりする場合があります。
しかし、その際「英語で保存されている知識」と「日本語で保存されている知識」がLLM内部で別々に存在するわけではないということです。
記憶そのものは確かにあるものの、ただ単に言語によって自信の度合いが変化してしまうのです。

研究者らがこの結論にたどり着いたのは、同じ質問を10回繰り返して多数決を取ったり、質問文を複数の言語に翻訳して同時に見せたりする実験をした結果です。

ユーザー目線では、LLMの知識面に期待する質問を投げる場合は、翻訳を併用したり、あるいは何度か回答をさせて数が多い回答を採用する手段をとるのが性能向上に役立つかもしれません。

📄 参照論文

Rethinking Cross-lingual Gaps from a Statistical Viewpoint

著者: Vihari Piratla, Purvam Jain, Darshan Singh, Partha Talukdar, Trevor Cohn

所属: Google DeepMind, Google Research

📎 論文を読む（doi.org）

X（Twitter）で見る

LLMの言語間ギャップは知識不足ではない

📄 参照論文

関連記事

🔒 GPT-4などのLLMがセキュリティ脆弱性とソフトウェア機能性の評価能力で高い精度を示す

🔒 現行のAIエージェントは実務レベルの長期タスクをこなせるか？GPT-5.2やClaude 4.5 Opus、Gemini 3 Proなどを32シナリオで検証

🔒 Claude CodeやGemini CLIなどAIエージェントの「スキル」における脆弱性14パターン

🔒 LLMにエピソード記憶のような能力を持たせるRAGのテクニック

人と社会を映すAI　拡がっていく付き合い方

🔒 LLMエージェントで変わるレコメンドシステムの実践ガイド

📄 参照論文

🔗 関連短信

関連記事

🔒 GPT-4などのLLMがセキュリティ脆弱性とソフトウェア機能性の評価能力で高い精度を示す

🔒 現行のAIエージェントは実務レベルの長期タスクをこなせるか？GPT-5.2やClaude 4.5 Opus、Gemini 3 Proなどを32シナリオで検証

🔒 Claude CodeやGemini CLIなどAIエージェントの「スキル」における脆弱性14パターン

🔒 LLMにエピソード記憶のような能力を持たせるRAGのテクニック

人と社会を映すAI 拡がっていく付き合い方

🔒 LLMエージェントで変わるレコメンドシステムの実践ガイド

人と社会を映すAI　拡がっていく付き合い方