音声 | AIDB

ホーム
音声

コンテンツ検索

反復学習でCoTによる推論性能を向上させる手法 Metaとニューヨーク大学による研究

By AIDB Research / 2024/05/20

LLMは論理的な推論をする能力が限られて...

スタンフォード大学の研究者ら、GPT-4oとGemini1.5 Proで「マルチモーダルモデルにおける『Many-Shot』の効果」を検証

By AIDB Research / 2024/05/17

スタンフォード大学の研究者らは、画像とテ...

RAGの失敗パターン7選

By AIDB Research / 2024/05/16

研究者らは、RAGの7つの失敗パターンを...

ChatGPTの「初頭効果」について

By AIDB Research / 2024/05/15

カリフォルニア大学などの研究者らは、Ch...

認知症の早期介入にLLMチャットボットが役に立つ　ハーバードなどが検証

By AIDB Research / 2024/05/14

本記事は、ICLR2024で発表された論...

LLMエージェントが実行可能なPythonコードを生成するフレームワーク『CodeAct』

By AIDB Research / 2024/05/13

通常のLLMエージェントは、テキストやJ...

Googleが開発した「LLMに長文を高精度で読解させる方法論」と実行プロンプト

By AIDB Research / 2024/05/10

LLMが一度に処理できる文章の長さには限...

マルチモーダルLLMにおけるハルシネーション（幻覚）の原因と対策

By AIDB Research / 2024/05/09

テキストだけでなく画像や動画などの視覚情...

LLMにおける超長尺のコンテキスト内学習（In-context learning）とファインチューニングの性能比較

By AIDB Research / 2024/05/08

LLMを利用する中でIn-context...

Apple開発のオープンソースLLM「OpenELM」

By AIDB Research / 2024/05/07

Appleが公開した最新のオープンソース...

2024/1/27
LLM 画像生成画像認識論文音声

AIDB

コンテンツ検索

反復学習でCoTによる推論性能を向上させる手法 Metaとニューヨーク大学による研究

スタンフォード大学の研究者ら、GPT-4oとGemini1.5 Proで「マルチモーダルモデルにおける『Many-Shot』の効果」を検証

RAGの失敗パターン7選

ChatGPTの「初頭効果」について

認知症の早期介入にLLMチャットボットが役に立つ　ハーバードなどが検証

LLMエージェントが実行可能なPythonコードを生成するフレームワーク『CodeAct』

Googleが開発した「LLMに長文を高精度で読解させる方法論」と実行プロンプト

マルチモーダルLLMにおけるハルシネーション（幻覚）の原因と対策

LLMにおける超長尺のコンテキスト内学習（In-context learning）とファインチューニングの性能比較

Apple開発のオープンソースLLM「OpenELM」

音声

マルチモーダルLLMの技術や開発トレンド、26種類のモデル例を網羅的にまとめた報告

視覚・テキスト・音声そして行動データを処理するマルチモーダルLLM「Unified-IO 2」を開発したと報告されています。

Metaのリアルタイム多言語間翻訳システム『Seamless（シームレス）』は話し方のトーンや抑揚も反映

自分の話し声を別の誰かの声にリアルタイム変換するモデルが、一般消費者向けCPUで動かせる軽さで登場

キーボード打鍵音から入力文字を特定するハッキング技術の精度が高いことが判明

大規模言語モデルが音声をダイレクトに理解する能力を与える　Metaとケンブリッジ大

人間の脳活動から音楽を再構築する：Brain2Musicの紹介

MRIデータから音声を合成する手法　UCバークレーなどが開発

コンテンツ検索

業界／カテゴリー

おすすめポスト

コンテンツ検索

音声

コンテンツ検索

業界／カテゴリー

直近1か月で読まれている記事

おすすめポスト