LLMが長々と説明するときは自信がない傾向にある 14個のモデルで検証

本記事では、LLMが「答えに自信がない時...
Read More

LLMプロジェクト開発に必要な新しい概念「AgentOps」とは

本記事では、LLMエージェントを安全に開...
Read More

画像も文字も表も全部まとめて理解するRAGシステムの提案 Bloombergなど

本記事では、複数の文書やページから図や表...
Read More

LLMにおける長文処理能力の進化を調査 Claude 3.5は情報の流れを追跡するスキルに長ける

本記事では、LLMの長文処理能力について...
Read More

「HTMLをそのままLLMに入力してはどうか」という新しいアプローチ

本記事では、LLMの精度向上のために用い...
Read More

LLMの機能別「領域」はまるで脳のようであるとの仮説

本記事では、LLMの内部で発見された驚く...
Read More

音声

マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
Metaのリアルタイム多言語間翻訳システム『Seamless(シームレス)』は話し方のトーンや抑揚も反映
自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場
キーボード打鍵音から入力文字を特定するハッキング技術の精度が高いことが判明
大規模言語モデルが音声をダイレクトに理解する能力を与える Metaとケンブリッジ大
人間の脳活動から音楽を再構築する:Brain2Musicの紹介
MRIデータから音声を合成する手法 UCバークレーなどが開発
PAGE TOP