次回の更新記事：ClaudeやCodexに匹敵するとされるオープンモデル「Kimi K3」が公開、性能とコストの報告を整理する（公開予定日：2026年07月29日）

スタッフ

深堀り解説手法

🔒 LLMを「評価者」として活用する『LLM-as-a-judge』の基本

2024.11.282026.02.07

深堀り解説手法

🔒 OpenAIのo1モデルへの対抗馬　アリババが独自の推論モデル「Marco-o1」を開発　オープンソースで公開

2024.11.272025.12.22

深堀り解説手法

🔒 Gemini-1.5-proやGPT-4o-miniなどの性能を上回るLLaVA-o1（11Bパラメータ）

2024.11.262025.12.22

深堀り解説手法

🔒 LLMによるバグ全自動修正に成功するケースと失敗するケースの違い

2024.11.252025.12.22

深堀り解説手法

🔒 LLMによる時系列データ分析に「ニュース情報」を混ぜるアプローチ　為替予測精度など大幅に向上

2024.11.222025.07.28

深堀り解説手法

🔒 Claude 3.5 Computer Useのケーススタディ集　示唆される「GUIエージェントの夜明け」

2024.11.212025.12.22

深堀り解説手法

🔒 LLMが長々と説明するときは自信がない傾向にある　14個のモデルで検証

2024.11.202025.08.28

深堀り解説手法

🔒 LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

2024.11.192025.12.22

深堀り解説手法

🔒 オープンソースのコード生成LLMが商用LLMに追いつく　Qwen2.5-Coderの能力値全容

2024.11.182025.04.27

深堀り解説手法

🔒 画像も文字も表も全部まとめて理解するRAGシステムの提案

2024.11.152025.12.22

深堀り解説手法

🔒 Llama 3.1シリーズ、8ビット量子化で半分以下のサイズでも性能をほぼ完全維持

2024.11.142025.12.22

深堀り解説手法

🔒 LLMにおける長文処理能力の進化を調査 Claudeは情報の流れを追跡するスキルに長ける

2024.11.132025.12.22

深堀り解説手法

🔒 上司役のLLMが部下LLMたちに的確に仕事を振り分けるフレームワーク

2024.11.122025.12.22

深堀り解説手法

🔒 「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

2024.11.112025.12.22

深堀り解説分析

🔒 LLMの機能別「領域」はまるで脳のようであるとの仮説

2024.11.082025.12.22

深堀り解説分析

🔒 直感に頼るようなタスクだとLLMに「ステップバイステップで考えて」は逆効果

2024.11.072025.12.22

深堀り解説分析

🔒 LLMの「知っているのに嘘をつく」幻覚と「知らないから間違える」幻覚の違い

2024.11.062025.12.22

深堀り解説ベンチマーク・リソース

🔒 OpenAIのLLM事実性評価ベンチマーク『SimpleQA』

2024.11.052026.03.30

深堀り解説手法

LLMが自分で「より賢いLLMの作り方」を発見するSelf-Developingフレームワーク（NEC 石橋陽一氏）

2024.11.042025.04.05

深堀り解説手法

🔒 LLMに対するオープンソース安全性評価ツールの比較

2024.11.012025.12.22

Copyright © Parks, Inc. All rights reserved.