LLMを「評価者」として活用する『LLM-as-a-judge』の基本

本記事では、新たな評価手法として注目され...
Read More

Gemini-1.5-proやGPT-4o-miniなどの性能を上回るLLaVA-o1(11Bパラメータ)

本記事では、視覚と言語を組み合わせたマル...
Read More

LLMによるバグ全自動修正に成功するケースと失敗するケースの違い

本記事では、LLMによるバグ修正に関する...
Read More

LLMが長々と説明するときは自信がない傾向にある 14個のモデルで検証

本記事では、LLMが「答えに自信がない時...
Read More

LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

本記事では、LLMエージェントを安全に開...
Read More

画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

本記事では、複数の文書やページから図や表...
Read More

LLM

プロンプトの影響によるLLMの性能のばらつきを考慮した評価指標「Sharpeスコア」 NAIST研究者ら考案
モデルとデータの大規模化で変化するLLMのハルシネーション Google DeepMindの研究
LLMにおける現状のリスクと対策に関するまとめ
LLMのサイバーセキュリティタスク性能評価フレームワーク「Cybench」
民事裁判をLLMで模倣 シミュレートを経てLLMの法律能力が強化される
Google DeepMindがリリースした新世代の画像生成モデル「Imagen 3」テクニカルレポート
LLMの事前学習とファインチューニングの関係
LLMから「LLMエージェント」へ ソフトウェアエンジニアリングにおける今後の展開
PAGE TOP