次回の更新記事:推論特化型LLM(推論モデル)の弱点はどこか ステッ…(公開予定日:2025年11月13日)

LLM

GoogleのGeminiファミリー最新モデル「Gemini 1.5 Pro」1000万トークンでほぼ完璧な検索性能
LLMの記号推論タスク(化学式や絵文字の理解など)で記号を自然言語に変換することの有効性を確認
Claude 3のベンチマーク評価結果 論文(テクニカルレポート)より
マルチモーダルLLMで画像分析する際、画像に「ドットマトリックス」を重ねるだけで認識精度が大きく向上
表とテキストを両方含むドキュメントからLLMで上手に情報抽出を行う手法
LLMは本当に推論しているか?原理から導かれる長所短所と最適なフレームワーク
検索結果をLLMでチェックして自動的に再検索する『MetaRAG』出力精度を大幅に向上
スクショからHTMLとCSSのコードをLLMが生成する『Design2Code』タスク、プロンプト手法やファインチューニングで高い性能を確認
「シリコンの群衆」LLM集団(12体)は人間にどれほど近づくか
「ポジティブ思考」プロンプトでLLMの性能向上 さらに自動最適化プロンプトが上をいくが、奇妙な現象も
「人間の自然言語を超えて」LLMにタスク実行時の思考を非自然言語フォーマットで行わせるプロンプト手法『AutoForm(オートフォーム)』
RAGにおいて取得された情報と事前知識が矛盾しても、情報に説得力があるときLLMは受け入れる
LLMに無礼なプロンプトを使用すると性能が低下するリスクの報告 一部、直感に反する複雑な結果も
GPT-4やGeminiなどさまざまなLLMで、プロンプトの入力が長くなるにつれて推論性能に顕著な低下が見られる
LLMの「心の理論」能力を詳しく調べるベンチマーク『OpenToM』登場 複数のLLMの評価結果も発表

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP