包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発

Metaなどの研究者らは、RAGシステム...
Read More

人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでLlama-3などを評価した結果

現実のユーザーからの難しいクエリを使用し...
Read More

LLMは与えられたペルソナ(役割)に応じてバイアスが変化することが明らかに

LLMは学習データに含まれる社会的な価値...
Read More

MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果

LLMの性能が、様々な分野でどれほど進歩...
Read More

LLMで因果推論を行うためのプロンプト手法

因果推論とは、ある出来事が別の出来事にど...
Read More

ファインチューニング

ファインチューニングがLLMの幻覚(ハルシネーション)に与える影響 Googleなどによる検証結果
LLMのプロンプトに数百から数千の例を含める超長尺のコンテキスト内学習(In-context learning)とファインチューニングの性能比較
スクショからHTMLとCSSのコードをLLMが生成する『Design2Code』タスク、プロンプト手法やファインチューニングで高い性能を確認
大規模言語モデル(LLM)のこれまでとこれから③ -使用法・拡張法、データセット編-
ファインチューニングデータが十分に大きい場合、タスク性能向上に追加の事前学習は不要の可能性 Googleなどによるスケーリング則の実験から
ファインチューニングとRAGを比較実験した結果 LLMに外部知識を取り入れる手法としての違い
GPT-4レベルの質問応答タスク性能をオープンソースモデルのLlama 2で実現する「ChatQA」NVIDIAが開発
LLMに「自分自身との対戦」で能力を向上させる手法『Self-Play Fine-Tuning(SPIN)』

業界/カテゴリー

PAGE TOP