AIDB

コンテンツ検索

計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある

By AIDB Research / 2024/10/22

本記事では、LLMを活用したエージェント...

500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場

By AIDB Research / 2024/10/21

本記事では、マルチモーダルAIモデルの能...

「o1-preview」は自己評価メカニズムを持つ　計画立案中に自分の行動をチェックして修正　

By AIDB Research / 2024/10/18

本記事では、OpenAIの最新モデル「o...

ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない

By AIDB Research / 2024/10/17

本記事では、長い文脈を扱えるLLMをRA...

OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮

By AIDB Research / 2024/10/16

本記事では、OpenAIが開発した「機械...

LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上　最大で30%改善

By AIDB Research / 2024/10/15

本記事では、LLMの多段階推論能力を向上...

「あなたは〇〇です」などのペルソナ設定を与えても、事実に基づく質問への回答精度は向上しないとの主張

By AIDB Research / 2024/10/11

本記事では、LLMのシステムプロンプトに...

複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場　最新モデルでも60%

By AIDB Research / 2024/10/10

本記事では、LLMのプログラミング能力を...

高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開

By AIDB Research / 2024/10/09

本記事では、1枚の画像から高精度な奥行き...

ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告（作成されたデータセットも公開）

By AIDB Research / 2024/10/08

本記事では、RAGシステムの性能を総合的...

2024/9/27
LLM 論文

RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる　最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究

2024/9/26
LLM 論文

GPT-4oに”嘘をつく理由”を与えると正直さが約32.5%減少　LLMは役割に応じて”正直さ”が変化する

2024/9/19
LLM 論文

単純に生成回数を増やすとLLMの性能が大幅に向上する「推論時のスケーリング則」

2024/9/18
LLM エージェント論文

コンテンツ検索

日本ディープラーニング協会

お問い合わせはこちら

コンテンツ検索

計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある

500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場

「o1-preview」は自己評価メカニズムを持つ　計画立案中に自分の行動をチェックして修正

ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない

OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮

LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上　最大で30%改善

「あなたは〇〇です」などのペルソナ設定を与えても、事実に基づく質問への回答精度は向上しないとの主張

複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場　最新モデルでも60%

高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開

ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告（作成されたデータセットも公開）

RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる　最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究

OpenAIの新しいモデルo1、従来のLLMと比べて「計画能力」で圧倒的な性能向上

LLMの「自己対話」により複雑な問題の解決能力を飛躍的に向上させる手法『Iteration of Thought』

CoT（思考の連鎖）は数学や論理で劇的に性能を向上させる一方、常識や知識のタスクでほとんど効果がない

医療のような専門分野におけるLLMの性能は「知識グラフと再ランキングの併用」で大幅に向上（東京大学Irene Li氏）

GPT-4oに”嘘をつく理由”を与えると正直さが約32.5%減少　LLMは役割に応じて”正直さ”が変化する

単純に生成回数を増やすとLLMの性能が大幅に向上する「推論時のスケーリング則」

リアルなWindowsOS環境でのエージェント能力を評価する『WindowsAgentArena』およびエージェント『Navi（ナビ）』Microsoftが開発

コンテンツ検索

日本ディープラーニング協会

お問い合わせはこちら

おすすめポスト

コンテンツ検索

直近1ヶ月で読まれている記事

日本ディープラーニング協会

お問い合わせはこちら

コンテンツ検索

コンテンツ検索

直近1ヶ月で読まれている記事

日本ディープラーニング協会

お問い合わせはこちら

おすすめポスト