計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある

本記事では、LLMを活用したエージェント...
Read More

LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上 最大で30%改善

本記事では、LLMの多段階推論能力を向上...
Read More

高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開

本記事では、1枚の画像から高精度な奥行き...
Read More

計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 
ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない
OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮
LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上 最大で30%改善
「あなたは〇〇です」などのペルソナ設定を与えても、事実に基づく質問への回答精度は向上しないとの主張
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
「Pandasデータフレームの欠損値を確認せよ! 」AIクイズ実装編【第7問】
「配列をpandasデータフレームにせよ! 」AIクイズ実装編【第6問】
「モデル作成後の評価法は? 」AIクイズ実装編【第5問】
「scikit-learnで最小二乗法! 」AIクイズ実装編【第4問】
「pandasでcsvファイルを読み取る! 」AIクイズ実装編【第3問】
「numpy配列の行数と列数を取得せよ! 」AIクイズ実装編【第2問】
「データを訓練データとテストデータに分割せよ! 」AIクイズ実装編【第1問】
「クラスタリングの評価手法『ARIやNMI』の欠点は? 」AIクイズscikit-learn編【第5問】
「DBCANの正しい説明とは? 」AIクイズscikit-learn編【第4問】
「凝集型クラスタリングとは? 」AIクイズscikit-learn編【第3問】
「t-SNEは何次元のデータを可視化できる? 」AIクイズscikit-learn編【第2問】
「非負値行列因子分解(NMF)とは? 」AIクイズscikit-learn編【第1問】
「ディープラーニングの応用分野はどれ? 」AIクイズ応用編【第30問】
「Pythonのグラフ描画ライブラリはどれ?」AIクイズ応用編【第29問】
「ニューラルネットワークの学習の流れ、分かる?」AIクイズ応用編【第28問】
計画のステップが増えるほど、LLMは最初の目標を見失っていく傾向がある
500以上の実世界のマルチモーダルタスクを含む、過去最大規模の評価ベンチマーク『MEGA-BENCH』登場
「o1-preview」は自己評価メカニズムを持つ 計画立案中に自分の行動をチェックして修正 
ロングコンテキストLLMでも、情報の数は「多ければ多いほど良い」わけではない
OpenAIのo1-previewモデル、Kaggleのグランドマスター基準を上回るデータ分析性能を発揮
LLMの推論能力は単純に文脈を繰り返すだけでも大幅に向上 最大で30%改善
「あなたは〇〇です」などのペルソナ設定を与えても、事実に基づく質問への回答精度は向上しないとの主張
複雑なプログラミングタスクに特化したベンチマーク『BigCodeBench』登場 最新モデルでも60%
高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開
ハーバード大学とGoogleの研究者ら、LLMチャットボットを総合的に評価するデータセットの作り方を報告(作成されたデータセットも公開)
100万体のLLMエージェントによるシミュレーションを実験できる環境が登場
「o1」は従来のモデルとは明確に異なり「珍しいタイプの問題」にも強い
対話の中でユーザーの好みを学ぶ手法『CIPHER』 (プロンプトテンプレートあり)
専門家が作成したプロンプトと同等以上の性能を達成する自動プロンプト生成手法『Minstriel』
米国3人に1人が生成AIを使用 ブルーカラー労働者も生産性向上 大規模調査より 
人間の集団が持つアイデアはAIによって多様性が向上することが研究で示唆されています。
数学オリンピックの金メダリストと似たレベルで幾何学問題を解くAIシステムをDeepMindが開発したことがNatureで報告されています。
JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
オセロで「完璧な手を打ち続けた結果は引き分けである」ことを証明する研究が発表されました。
現時点でのLLMに対する網羅的な評価分析が行われました。
LLMと遺伝的アルゴリズムを使用して、個性によって社会集団の行動がどのように変化していくのかを観察する挑戦的な研究が行われました。
特定の個人の好みやニーズに最も適したレスポンスや行動を行うLLMを開発する手法、『Personalized Soups(意訳:ぼくだけのためのスープ)』が開発されました。
「DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?」に対するOpenAIの論文が発表されました。
電気回路図などの図表をテキストのみから生み出すLLM駆動のフレームワーク『DiagrammerGPT(ダイアグラマーGPT)』が登場しました。
GPT-4との対話でタスクプランニングを行うロボットシステムフレームワークが発明されました。
GPT-4などLLMのコード生成能力にデバッグ機能を追加する『SELF-DEBUGGING(セルフデバッギング)』フレームワークが考案されました。
LLMがソフトウェアエンジリアリングにおいて現時点で役に立つこと&課題。Metaなどの研究者らが報告
OpenAIは、DALL·E 3の論文を通して「画像生成AIの安全性は前進した」ことを報告しています。
トヨタから「栽培しなくても作物の特性がわかるAI」の特許が出願。なぜ?
主要な世界的AI研究機関(企業)が自社の論文を掲載しているWebページまとめ
AIによる「電力予測」どこまで進んでる?研究事例まとめ
「投資」にAIを活用した研究事例まとめ【解説あり】
「農業」や「畜産」にAIを活用した研究事例まとめ【解説あり】
「食品の品質管理」にAIを活用した研究事例まとめ【解説付き】
「学会レポート」特集!記事一覧
「AI研究者が語る」特集!記事一覧
「AI時代のメンタリズム」特集!記事一覧
「AI×釣り」特集!記事一覧
「AIアプリやってみた」特集!記事一覧
「StyleGAN」特集!記事一覧
「G検定・E資格」特集!
「東大生AI初心者じゅんぺーの学習日誌」特集!記事一覧
PAGE TOP