次回の更新記事:ソフトウェア開発におけるLLMマルチエージェントの設…(公開予定日:2025年11月19日)

投稿者の過去記事

OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
LLMが自分で「より賢いLLMの作り方」を発見するSelf-Developingフレームワーク(NEC 石橋陽一氏)
LLMに対するオープンソース安全性評価ツールの比較
プレイヤーの行動に応じてゲームを自動生成する技術 Googleなどが開発
手の込んだ手法よりシンプルな手法の方がLLMは幻覚を起こしにくい 問題に応じて戦略を変える必要性
開発企業や言語ごとに異なるLLMのイデオロギー、価値観や態度
コンテキスト内で重要な情報同士が離れすぎるとLLMの性能は大幅に下がる
LLMには正解例だけでなく、「よくある間違い例」と理由も一緒に教えるのが有効
o1-previewが人間のように6つの思考パターンを使い分けているとの実験結果
IBMから日本語対応の商用可能オープンソースLLM「GRANITE 3.0」公開 8Bから
計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 
ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない
OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP