次回の更新記事:「データは多ければ良い」は本当か?データを減らし…(公開予定日:2025年11月12日)

LLM

人とLLMの実際のチャット履歴から抽出した1,024のリアルなタスクでClaude 3などを評価した結果
LLMは与えられたペルソナ(役割)に応じてバイアスが変化することが明らかに
マルチモーダルLLMは従来手法よりゼロショット画像分類の精度が大幅に向上 Googleが報告
難しいベンチマークで高性能なLLMでも単純な問題で間違えてしまう現象について「不思議の国のアリス問題」とGPT-4o、Claude-3、Llama 3などで分析
仮想の翻訳会社「TRANSAGENTS」に学ぶ マルチLLMエージェントによる効果的な翻訳システム
LLMハルシネーション対策の新手法 繰り返し回答させバラつきを見る
MMLUをアップデートしたベンチマーク『MMLU-Pro』Phi-3やLlama 3、Claude 3、GPT-4oなどの評価結果
グラフニューラルネットワークを活用したRAG手法『GNN-RAG』 7BのLLMでも最先端性能
LLMで因果推論を行うためのプロンプト手法
LLMエージェントの認知バイアス
AGIへのロードマップ カーネギーメロン大学など複数機関からの研究グループが提唱
多くの「長いコンテキストを要するタスク」を、短いコンテキストウィンドウのLLMで解決する手法
時系列データの異常検知にLLMを使用する手法と実行プロンプト
自然言語プログラミングを可能にするシステム『CoRE』
LLMでプログラミング言語間の翻訳を行うプロンプト手法 C、Go→Rustのケーススタディ結果

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP