次回の更新記事:コンパクトでも冴える頭脳 会話評価と数理探索と作曲…(公開予定日:2025年11月15日)

論文

LLMにおける現状のリスクと対策に関するまとめ
LLMのサイバーセキュリティタスク性能評価フレームワーク「Cybench」
民事裁判をLLMで模倣 シミュレートを経てLLMの法律能力が強化される
Google DeepMindがリリースした新世代の画像生成モデル「Imagen 3」テクニカルレポート
LLMの事前学習とファインチューニングの関係についての新視点 まるで「アムロ」と「シャア」?
LLMから「LLMエージェント」へ ソフトウェアエンジニアリングにおける今後の展開
LLMの出力をJSON形式などに構造化すると「思考の柔軟性」や精度に影響することが示唆される
Sakana AIが科学研究自動化フレームワーク『The AI Scientist』開発
LLMを「人間の心のケア」を行うカウンセリングAIとして実行するためのプロンプト手法
「LLMはプロンプトから新しいタスクを学べるのか?」 という根本的な問いに対する3つの仮説を検証
漫画を台本に変換するモデル『Magi v2』オックスフォード大学の研究グループが開発
LLMベースの万能エンジニアを構築する『OpenHands(旧OpenDevin)』プラットフォーム
LLMは人間のような「共感的な対話」ができるか?実行プロンプトと検証結果
画像と「動画」の中にあるものを認識する『SAM 2(Segment Anything 2)』をMetaが開発
Appleが「LLMエージェントの評価」に特化したベンチマーク『MMAU』を開発 5領域5能力で測る

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP