Loading [MathJax]/jax/output/HTML-CSS/config.js
次回の更新記事:LLMを用いて「記事や投稿に潜むバイアスの検出と修正…(公開予定日:2025年04月15日)

LLM

o1-previewが人間のように6つの思考パターンを使い分けているとの実験結果
IBMから日本語対応の商用可能オープンソースLLM「GRANITE 3.0」公開 8Bから
計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 
ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない
OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮
LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上 最大で30%改善
「あなたは〇〇です」などのペルソナ設定を与えても、事実に基づく質問への回答精度は向上しないとの主張
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告(作成されたデータセットも公開)
100万体のLLMエージェントによるシミュレーションを実験できる環境が登場
「o1-preview」は従来のモデルとは明確に異なり「珍しいタイプの問題」にも強い
対話の中でユーザーの好みを学ぶ手法『CIPHER』 (プロンプトテンプレートあり)
専門家が作成したプロンプトと同等以上の性能を達成する自動プロンプト生成手法『Minstriel』

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP