AIDB
menu
AIDBとは
アカウント作成
ログイン
サイトQ&A
AIプロジェクトで働く
ホーム
ベンチマーク
次回の更新記事:
Web3向けLLMエージェントOS登場 オープンソースの新…
(公開予定日:2025年01月20日)
コンテンツ検索
Search for:
LLM
プロンプト
論文
長文コンテキスト
Googleが実践するLLMを活用したコードマイグレーション
By AIDB Research
/ 2025/01/17
本記事では、Googleが取り組む”LL...
Read More
LLM
セキュリティ
論文
生成AIシステムのセキュリティ評価 マイクロソフトが100事例から得た教訓
By AIDB Research
/ 2025/01/16
本記事では、マイクロソフトの研究チームに...
Read More
LLM
エージェント
ファインチューニング
論文
単一のLLMから2つのエージェントを作成し自分(たち)で改善させる手法が有効
By AIDB Research
/ 2025/01/15
本記事では、言語モデルの"自己改善"に新...
Read More
LLM
マルチモーダル
論文
マルチモーダルLLMによる表やグラフの理解力を向上させる方法
By AIDB Research
/ 2025/01/14
表やグラフといった構造化された画像は、私...
Read More
LLM
エージェント
論文
科学研究の自動化だけでなく人間と協働する「コパイロットモード」も備えるLLMエージェント登場
By AIDB Research
/ 2025/01/10
本記事では、研究者のアイデアを自動的に実...
Read More
LLM
論文
LLMエージェントによって自然言語をゲーム理論モデルに変換する方法
By AIDB Research
/ 2025/01/09
本記事では、人間が思いついたゲーム理論的...
Read More
LLM
政治・社会
論文
産業界における生成AIガイドラインを網羅したデータセット登場
By AIDB Research
/ 2025/01/08
本記事では、企業における大規模言語モデル...
Read More
LLM
エージェント
論文
金融・経済
LLMのマルチエージェントによる仮想通貨ポートフォリオ運用の自動化
By AIDB Research
/ 2025/01/07
本記事では、仮想通貨投資の判断をAIで支...
Read More
LLM
論文
金融・経済
LLMは個人の金銭管理を適切にサポートできるのか?
By AIDB Research
/ 2025/01/06
本記事では、LLMを利用した個人財務サポ...
Read More
LLM
ファインチューニング
論文
金融・経済
LLMによるニュース報道の広がり分析を活用した株価変動予測手法
By AIDB Research
/ 2025/01/03
本記事では、株式市場におけるニュースの影...
Read More
ベンチマーク
2024/12/23
LLM
エージェント
ベンチマーク
論文
企業実務タスクにおけるLLMエージェントの能力を評価する方法
企業実務タスクにおけるLLMエージェントの能力を評価する方法
2024/12/4
LLM
ベンチマーク
論文
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
実際の企業データからなるtext-to-SQLベンチマーク「Spider 2.0」と専門エージェント『Spider-Agent』
2024/11/5
LLM
ベンチマーク
論文
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース 実用に役立つ知見も得られる
2024/10/21
LLM
ベンチマーク
マルチモーダル
論文
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
2024/10/10
LLM
ベンチマーク
論文
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
2024/9/9
LLM
ベンチマーク
マルチモーダル
論文
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
マルチモーダルLLMの高難易度ベンチマーク『MMMU-Pro』で明らかになったこと
2024/8/1
LLM
エージェント
ベンチマーク
論文
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る
2024/6/14
LLM
RAG
ベンチマーク
論文
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
包括的なRAG評価ベンチマーク『CRAG』Metaなどが開発
1
2
>
コンテンツ検索
検索:
12600
直近1ヶ月で読まれている記事
ブラウザでLLMをローカル展開する手法
LLMを利用した「自動データクリーニング」方法
LLM同士による人工言語コミュニケーションで発見された「言語構造の創発」
長文コンテキスト処理はRAGを進化させるのか?最新モデル20種類での実験結果
生涯にわたりユーザーに寄り添いパーソナライズし続けるAIアシスタントの設計
PAGE TOP
Copyright ©
AIDB
All rights reserved.