LLMによるText to SQL(SQLクエリ生成)の現状まとめ

本記事では、LLMを活用したText-t...
Read More

LLMの作るストーリーは人間のクリエイティブとどう異なるか

本記事では、LLMが物語を生成する能力を...
Read More

LLMで心理評価をゲーミフィケーションする方法

本記事では、心理評価のアプローチを進化さ...
Read More

エージェントなしで行うLLMによるソフトウェアのバグ修正手法

本記事では、ソフトウェア開発におけるバグ...
Read More

心の理論をLLMエージェントに実装することの効果

本記事では、LLMマルチエージェントにお...
Read More

競争環境でのLLMエージェントが自発的に協力し始める現象を観測

本記事では、LLMエージェントが競争環境...
Read More

音声

マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
Metaのリアルタイム多言語間翻訳システム『Seamless(シームレス)』は話し方のトーンや抑揚も反映
自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場
キーボード打鍵音から入力文字を特定するハッキング技術の精度が高いことが判明
大規模言語モデルが音声をダイレクトに理解する能力を与える Metaとケンブリッジ大
人間の脳活動から音楽を再構築する:Brain2Musicの紹介
MRIデータから音声を合成する手法 UCバークレーなどが開発

業界/カテゴリー

PAGE TOP