Metaのリアルタイム多言語間翻訳システム『Seamless（シームレス）』は話し方のトーンや抑揚も反映

現代のコミュニケーションでは、言語の壁が大きな障害となることが多く、シームレスな翻訳ツールの登場が待たれています。一方でこれまでの自動翻訳システムは、正確な意味の翻訳に重点を置きつつも、人間同士の対話に比べて、その自然さや表現の多様性に欠けるところがありました。

今回Metaが開発したSeamlessは、上記のような社会のニーズに応えるために設計されたものです。

本記事では、Seamlessの研究背景、性能、他システムへの優位性などについて紹介します。

参照論文情報

タイトル：Seamless: Multilingual Expressive and Streaming Speech Translation

著者：Loïc Barrault et al.

URL：https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

GitHub：https://github.com/facebookresearch/seamless_communication

プロジェクトページ：https://ai.meta.com/research/seamless-communication/

研究背景

機械翻訳の研究は長い間、テキストに集中してきました。その結果、本やウェブページ、メッセージなどのテキストベースのコンテンツの翻訳は進歩しましたが、一方で音声翻訳の分野では遅れが見られています。

音声翻訳においては抑揚、トーン、タイミングなどを考慮できれば、用途はかなり広がりを見せます。一方で、計算上の課題がありました。近年では研究開発も進んできましたが、現在の大規模自動音声翻訳システムは、人間同士の対話のようなシームレスなコミュニケーションをサポートすることはできていないと指摘されています。

理想的には、映画『スタートレック』に登場する「ユニバーサルトランスレータ」のように、手間をかけずに表現力豊かでリアルタイムの翻訳を提供するようなシステムが期待されています。

このような背景の中、Metaの研究チームは、ハイクオリティーな多言語音声翻訳システムを開発することにしました。抑揚の反映など表現力豊かな翻訳に挑戦しており、言語の壁を超えたコミュニケーションを促進しようと考えています。

本記事の関連研究：AudioGPT：音声認識から歌声合成まで

「Seamless（シームレス）」のポイント

今回開発されたシステム『Seamless』の主な特徴を並べます。

1. 多言語翻訳、感情や抑揚の反映

Seamlessは、翻訳において、話し手の感情や抑揚をしっかりと保持するとのことです。細かなレベルでの表現力（例えば、トーン、感情表現、話者の声のスタイル）を重視しています。従来の研究ではあまり探求されてこなかった側面、例えば話す速度や休むタイミングも含まれます。

2. 多様な翻訳モードのサポート

Seamlessは、下記の翻訳タスクをカバーしています。

音声からテキスト（S2T）

テキストから音声（T2S）

音声から音声（S2S）

多様なコミュニケーション形式においてシームレスな翻訳を実現する設計になっています。

3. 大規模自己教師あり学習と多言語事前学習による実現

SeamlessM4T v2（開発されたモデル）は、大規模自己教師あり学習と多言語事前学習を用いています。細かい調整（微調整）を通じて、より多くの低リソース言語データを含むトレーニングが行われているとのことです。ほぼ100の言語を入力として受け付け、96の言語をテキスト出力、36の言語を音声出力としてカバーします。