Loading [MathJax]/extensions/tex2jax.js
次回の更新記事:LLMエージェントで社会現象をシミュレーションするに…(公開予定日:2025年04月28日)

LLM

「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 
ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない
OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮
LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上 最大で30%改善
「あなたは〇〇です」などのペルソナ設定を与えても、事実に基づく質問への回答精度は向上しないとの主張
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告(作成されたデータセットも公開)
100万体のLLMエージェントによるシミュレーションを実験できる環境が登場
「o1-preview」は従来のモデルとは明確に異なり「珍しいタイプの問題」にも強い
対話の中でユーザーの好みを学ぶ手法『CIPHER』 (プロンプトテンプレートあり)
専門家が作成したプロンプトと同等以上の性能を達成する自動プロンプト生成手法『Minstriel』
米国3人に1人が生成AIを使用 ブルーカラー労働者も生産性向上 大規模調査より 
LLMの論理的推論能力をステップバイステップ以上に向上させる手法『Logic-of-Thought』プロンプティング(テンプレートつき)
RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる 最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究
OpenAIの新しいモデルo1-preview、従来のLLMと比べて「計画能力」で圧倒的な性能向上

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP