反復学習でCoTによる推論性能を向上させる手法 Metaとニューヨーク大学による研究

LLMは論理的な推論をする能力が限られて...
Read More

RAGの失敗パターン7選

研究者らは、RAGの7つの失敗パターンを...
Read More

ChatGPTの「初頭効果」について

カリフォルニア大学などの研究者らは、Ch...
Read More

Googleが開発した「LLMに長文を高精度で読解させる方法論」と実行プロンプト

LLMが一度に処理できる文章の長さには限...
Read More

マルチモーダルLLMにおけるハルシネーション(幻覚)の原因と対策

テキストだけでなく画像や動画などの視覚情...
Read More

Apple開発のオープンソースLLM「OpenELM」

Appleが公開した最新のオープンソース...
Read More

音声

マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告
視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。
Metaのリアルタイム多言語間翻訳システム『Seamless(シームレス)』は話し方のトーンや抑揚も反映
自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場
キーボード打鍵音から入力文字を特定するハッキング技術の精度が高いことが判明
大規模言語モデルが音声をダイレクトに理解する能力を与える Metaとケンブリッジ大
人間の脳活動から音楽を再構築する:Brain2Musicの紹介
MRIデータから音声を合成する手法 UCバークレーなどが開発

業界/カテゴリー

PAGE TOP