Loading [MathJax]/extensions/tex2jax.js
次回の更新記事:標準作業手順書(SOP)をもとにLLMエージェントシス…(公開予定日:2025年03月31日)

画像認識

Gemini-1.5-proやGPT-4o-miniなどの性能を上回るLLaVA-o1(11Bパラメータ)
高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開
漫画を台本に変換するモデル『Magi v2』オックスフォード大学の研究グループが開発
画像と「動画」の中にあるものを認識する『SAM 2(Segment Anything 2)』をMetaが開発
タスクを一度視覚化して取り組ませることで、LLMの推論能力を大きく向上させるプロンプト手法『Whiteboard-of-Thought(ホワイトボード思考法)』
Appleが開発、スマホのスクリーンを理解してユーザーと対話できる『ReALM』端末上で動く軽量モデル
JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを開発
画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
「1枚絵の3D化」が非常に手軽な操作で実行できる軽快なツール『DreamGaussian』とWebでの使い方
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化
数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』
ロボットが「初めて見る環境」で「初めて聞く指示」に対しても行動をとれるようにする
未知の物体を認識し、それを既知の物体と区別する新たな研究 BMWやGoogleなど

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP