次回の更新記事:LLMの回答における「自信ありげな度合い」と「実際の…(公開予定日:2025年06月23日)

技術

Gemini-1.5-proやGPT-4o-miniなどの性能を上回るLLaVA-o1(11Bパラメータ)
プレイヤーの行動に応じてゲームを自動生成する技術 Googleなどが開発
高解像度な深度マップを高速生成するモデル『Depth Pro』Appleが公開
漫画を台本に変換するモデル『Magi v2』オックスフォード大学の研究グループが開発
画像と「動画」の中にあるものを認識する『SAM 2(Segment Anything 2)』をMetaが開発
タスクを一度視覚化して取り組ませることで、LLMの推論能力を大きく向上させるプロンプト手法『Whiteboard-of-Thought(ホワイトボード思考法)』
Appleが開発、スマホのスクリーンを理解してユーザーと対話できる『ReALM』端末上で動く軽量モデル
JPモルガンの研究者らは、企業のドキュメントをLLMで読み込むモデル『DocLLM』を発表しました。
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
「視覚は本来、言語に依存しない」と考えた研究者らが、言語データなしで大規模ビジョンモデル(LVM)を構築するアプローチを開発
Metaのリアルタイム多言語間翻訳システム『Seamless(シームレス)』は話し方のトーンや抑揚も反映
キャラを一貫して再現する画像生成メソッド『The Chosen One』
自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場
DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?OpenAIが論文で発表
「DALL-E 3はどうしてユーザーの意図を正確に汲み取ることができるのか?」に対するOpenAIの論文が発表されました。

プロフィールを登録すると
仕事のオファーが届きます

プロフィール登録
PAGE TOP