LLMが自分で「より賢いLLMの作り方」を発見するSelf-Developingフレームワーク(NEC 石橋陽一氏)

本記事は、研究者が自ら著書の論文を解説す...
Read More

LLMに対するオープンソース安全性評価ツールの比較

本記事では、LLMの安全性を自動的にチェ...
Read More

開発企業や言語ごとに異なるLLMのイデオロギー、価値観や態度

本記事では、最新の研究から明らかになった...
Read More

コンテキスト内で重要な情報同士が離れすぎるとLLMの性能は大幅に下がる

本記事では、LLMの長文理解における「情...
Read More

o1モデルが人間のように6つの思考パターンを使い分けているとの実験結果

本記事では、AIの性能向上における「推論...
Read More

画像認識

視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
Gemini Pro 対 GPT-4V、画像認識能力でどちらが優秀なのか
「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを開発
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化
数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』
ロボットが「初めて見る環境」で「初めて聞く指示」に対しても行動をとれるようにする
PAGE TOP