次回の更新記事:会議出席代行システム LLMでどこまでできるか(公開予定日:2025年02月25日)

論文

『プロンプトレポート』OpenAIなどが作成した調査報告書 〜その3 プロンプトエンジニアリングのケーススタディ〜
『プロンプトレポート』OpenAIなどが作成した調査報告書 〜その2 マルチモーダルとエージェント〜
『プロンプトレポート』OpenAIなどが作成した調査報告書 〜その1 重要な用語と各種プロンプト手法〜
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでClaude 3などを評価した結果
LLMは与えられたペルソナ(役割)に応じてバイアスが変化することが明らかに
マルチモーダルLLMは従来手法よりゼロショット画像分類の精度が大幅に向上 Googleが報告
難しいベンチマークで高性能なLLMでも単純な問題で間違えてしまう現象について「不思議の国のアリス問題」とGPT-4o、Claude-3、Llama 3などで分析
仮想の翻訳会社「TRANSAGENTS」に学ぶ マルチLLMエージェントによる効果的な翻訳システム
LLMの出力が信頼できるかを判定する手法 Google DeepMindが新しく考案
PAGE TOP