AIDBは、AI活用のノウハウ獲得や技術動向の調査のために、個人やチームが論文を探す・読む・活かす作業をサポートするプラットフォームです。なお、記事や投稿は人の手で書いています。

検索対象: 記事(900件) 短信(643件) 🔒 論文(26,266件) 🔒

Metaのリアルタイム多言語間翻訳システム『Seamless（シームレス）』は話し方のトーンや抑揚も反映

2023.12.062025.03.08

現代のコミュニケーションでは、言語の壁が大きな障害となることが多く、シームレスな翻訳ツールの登場が待たれています。一方でこれまでの自動翻訳システムは、正確な意味の翻訳に重点を置きつつも、人間同士の対話に比べて、その自然さや表現の多様性に欠けるところがありました。

今回Metaが開発したSeamlessは、上記のような社会のニーズに応えるために設計されたものです。

本記事では、Seamlessの研究背景、性能、他システムへの優位性などについて紹介します。

参照論文情報

タイトル：Seamless: Multilingual Expressive and Streaming Speech Translation

著者：Loïc Barrault et al.

URL：https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

GitHub：https://github.com/facebookresearch/seamless_communication

プロジェクトページ：https://ai.meta.com/research/seamless-communication/

研究背景

機械翻訳の研究は長い間、テキストに集中してきました。その結果、本やウェブページ、メッセージなどのテキストベースのコンテンツの翻訳は進歩しましたが、一方で音声翻訳の分野では遅れが見られています。

音声翻訳においては抑揚、トーン、タイミングなどを考慮できれば、用途はかなり広がりを見せます。一方で、計算上の課題がありました。近年では研究開発も進んできましたが、現在の大規模自動音声翻訳システムは、人間同士の対話のようなシームレスなコミュニケーションをサポートすることはできていないと指摘されています。

理想的には、映画『スタートレック』に登場する「ユニバーサルトランスレータ」のように、手間をかけずに表現力豊かでリアルタイムの翻訳を提供するようなシステムが期待されています。

このような背景の中、Metaの研究チームは、ハイクオリティーな多言語音声翻訳システムを開発することにしました。抑揚の反映など表現力豊かな翻訳に挑戦しており、言語の壁を超えたコミュニケーションを促進しようと考えています。

本記事の関連研究：AudioGPT：音声認識から歌声合成まで

「Seamless（シームレス）」のポイント

今回開発されたシステム『Seamless』の主な特徴を並べます。

1. 多言語翻訳、感情や抑揚の反映

Seamlessは、翻訳において、話し手の感情や抑揚をしっかりと保持するとのことです。細かなレベルでの表現力（例えば、トーン、感情表現、話者の声のスタイル）を重視しています。従来の研究ではあまり探求されてこなかった側面、例えば話す速度や休むタイミングも含まれます。

2. 多様な翻訳モードのサポート

Seamlessは、下記の翻訳タスクをカバーしています。

音声からテキスト（S2T）

テキストから音声（T2S）

音声から音声（S2S）

多様なコミュニケーション形式においてシームレスな翻訳を実現する設計になっています。

3. 大規模自己教師あり学習と多言語事前学習による実現

SeamlessM4T v2（開発されたモデル）は、大規模自己教師あり学習と多言語事前学習を用いています。細かい調整（微調整）を通じて、より多くの低リソース言語データを含むトレーニングが行われているとのことです。ほぼ100の言語を入力として受け付け、96の言語をテキスト出力、36の言語を音声出力としてカバーします。

4. 実用性とアクセシビリティ

SeamlessExpressive（抑揚を包括的に保持するオフライン翻訳モデル）とSeamlessStreaming（多言語ストリーミング音声翻訳モデル）を組み合わせることで、リアルタイムで表現力豊かな音声翻訳を実現しています。

技術的なフレームワーク

本ツールのフレームワークは下記の通りです。

プレミアム会員限定コンテンツです

無料会員でもできること

一部記事の閲覧
研究紹介短信ライブラリの基本機能

プレミアム会員の特典

全過去記事の無制限閲覧
専門家による最新リサーチ結果を記事で購読（平日毎日更新）
日本語検索対応の新着AI論文データベース
研究紹介短信ライブラリの高度な機能を開放
記事内容質問AIを使用可能に

まずはアカウントを作成

ログイン

プレミアム会員について

💬 プレミアム会員ディスカッション

ディスカッションに参加するにはログインが必要です。

ログイン / アカウント作成 →

Metaのリアルタイム多言語間翻訳システム『Seamless（シームレス）』は話し方のトーンや抑揚も反映

研究背景

「Seamless（シームレス）」のポイント

1. 多言語翻訳、感情や抑揚の反映

2. 多様な翻訳モードのサポート

3. 大規模自己教師あり学習と多言語事前学習による実現

4. 実用性とアクセシビリティ

技術的なフレームワーク

💬 プレミアム会員ディスカッション

記事検索

こちらもどうぞ

🔒 人間は言葉で指示をしてAIがパワポを作成するようになる

🔒 LLMプライバシーポリシーの進化史