次回の更新記事:LLMアプリでモデル更新時にプロンプト動作を安定させ…(公開予定日:2025年07月15日)

エージェント

LLMの「自己対話」により複雑な問題の解決能力を飛躍的に向上させる手法『Iteration of Thought』
GPT-4oに”嘘をつく理由”を与えると正直さが約32.5%減少 LLMは役割に応じて”正直さ”が変化する
リアルなWindowsOS環境でのエージェント能力を評価する『WindowsAgentArena』およびエージェント『Navi(ナビ)』Microsoftが開発
ノーコードでLLMマルチエージェントを操る『AUTOGEN STUDIO』Microsoftが新開発
Self-Reflection(自己反省)がLLMのパフォーマンスに与える影響を網羅的に調査
100人以上の研究者が実験参加 LLMは人間より優れた研究アイデアを思いつくのか?
GPT-4oで保険、銀行、小売りなどで人間への売り込みを実験 最大35%の確率で購買決定に成功
「AIが自動的に優れたAIエージェントを設計する」新分野の提唱 数学エージェントが読解でも好成績
人間を討論で言い負かすディベート上手なLLMの実装方法
LLMにおける現状のリスクと対策に関するまとめ
LLMのサイバーセキュリティタスク性能評価フレームワーク「Cybench」
民事裁判をLLMで模倣 シミュレートを経てLLMの法律能力が強化される
LLMから「LLMエージェント」へ ソフトウェアエンジニアリングにおける今後の展開
Sakana AIが科学研究自動化フレームワーク『The AI Scientist』開発
LLMベースの万能エンジニアを構築する『OpenHands(旧OpenDevin)』プラットフォーム

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP