次回の更新記事:既存のベンチマークテストは信頼できるのか?LLM評価…(公開予定日:2025年02月20日)

「LLM活用で文書作成」社会でどこまで導入されている

本記事では、LLMが社会のさまざまな分野...
Read More

LLMを擬人化することに対する見解

本記事では、LLMを「人間らしいもの」と...
Read More

LLM専用の「新しい言葉」を導入 Google DeepMind

本記事では、LLMの理解と制御に向けて新...
Read More

AIDBプレミアム会員特典のお知らせ

情報収集と学習を継続されている皆さまに対...
Read More

「すべてのソフトウェアをエージェントとして使う」ビジョンと実践例

ソフトウェアを自然言語で操作する新しい手...
Read More

「職業別にみるLLM活用の現状と今後」Anthropicが大規模調査 

これまで広い視野での「LLMによる仕事の...
Read More

o3-miniクイズ

*前回はDeepSeekについてのクイズ...
Read More

DeepSeek‑R1クイズ

2025年1月20日に最新版「DeepS...
Read More

論文

LLMの内部状態を観察することで「出力がハルシネーションか否かを判別する」手法『LLMファクトスコープ』
Geminiの「常識を推論する能力」を網羅的に調査した結果 間違えやすいタイプの問題も明らかに
人間のカリキュラム教育のような学習でLLMの性能は向上するとの報告
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」、GPT-4VやGemini Ultraでも正解率6割未満
プロンプトの原則26ヶ条をまとめた報告
LLMのRAG(外部知識検索による強化)をまとめた調査報告
Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか
消費者向けGPUでも高性能GPUに近いパフォーマンスでLLMを動かす手法「PowerInfer」
OpenAIが開発中の「人間を超えたAIを制御する」方法
あらゆるLLMを「使い心地」基準でバトルさせる便利なプラットフォーム『Chatbot Arena:チャットボットアリーナ』
PAGE TOP