o1モデルが人間のように6つの思考パターンを使い分けているとの実験結果

本記事では、AIの性能向上における「推論...
Read More

IBMから日本語対応の商用可能オープンソースLLM「GRANITE 3.0」公開 8Bから

本記事では、IBMが新たに開発した軽量な...
Read More

計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある

本記事では、LLMを活用したエージェント...
Read More

LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上 最大で30%改善

本記事では、LLMの多段階推論能力を向上...
Read More

論文

LLMには正解例だけでなく、「よくある間違い例」と理由も一緒に教えるのが有効
o1モデルが人間のように6つの思考パターンを使い分けているとの実験結果
IBMから日本語対応の商用可能オープンソースLLM「GRANITE 3.0」公開 8Bから
計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 
ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない
OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮
PAGE TOP