“脳波”から映像を生成する技術「DreamDiffusion」登場

Tencentなどの研究者チームが開発した「DreamDiffusion」は、脳の視ている光景を脳波から視覚化する、まるでSF映画のような技術です。本記事では、この画期的な技術について紹介します。

参照論文情報

タイトル：DreamDiffusion: Generating High-Quality Images from Brain EEG Signals

著者：Yunpeng Bai, Xintao Wang, Yanpei Cao, Yixiao Ge, Chun Yuan, Ying Shan

所属：Tencent AI Labなど

URL：https://doi.org/10.48550/arXiv.2306.16934

関連研究

脳内映像再現の世界：生成AIで脳から画像・映像へ

Stable Diffusionで脳内映像を見る！大阪大学の研究者らが開発

DreamDiffusionの大まかな説明

DreamDiffusionは、脳波（EEG）から映像を生成する技術です。具体的には、頭の外側に付ける非侵襲型の電極からEEG信号を読み取り、その信号を元に拡散モデルを使用して画像を生成します。
つまり、DreamDiffusionは脳の信号を読み取り、その情報を使って画像を作り出す技術です。

なお、EEG信号はMRI測定データと比較して情報量が限られているため、それにも関わらず高品質な画像を生成できる点が本技術における魅力の一つです。

EEGとは？

EEG（電気脳波）は、脳の電気的活動を記録するための非侵襲的な方法です。脳の神経細胞は電気信号を用いて情報を伝達し、外の世界を知覚したり、思考を行ったり、体を動かしたりします。これらの信号は頭皮の表面に配置された電極を通じて記録することができ、脳の活動をリアルタイムで観察できます。EEGは、睡眠、覚醒、認知タスクの実行など、さまざまな状態と行動における脳の動作を理解するのに役立ちます。

また、EEGによる脳波の分析は、さまざまな脳疾患の診断にも使用できます。例えば、てんかんの発作は特定の脳波パターンを引き起こします。また、アルツハイマー病などの神経変性疾患では、脳に異常な活動が見られます。

さらに、EEGはブレイン・マシン・インタフェースの一部としても使用されます。これは、脳の信号を直接コンピュータに送信し、デバイスを制御するためのシステムです。ブレイン・マシン・インタフェースは、身体的な制約を持つ人々がコンピュータを操作するのを助けたり、仮想現実やゲームのようなアプリケーションで使用したりできます。

拡散モデルとは？

拡散モデルは、ランダムなノイズから始まり、徐々にデータに近づくように生成するモデルです。このモデルは、データ生成のプロセスを逆転させることで、データの構造を学習します。

DreamDiffusionでは、拡散モデルを用いて、脳波から画像を生成します。具体的には、脳波の情報を元にランダムなノイズを生成し、そのノイズを徐々にデータ（画像）に近づくように変化させていきます。このプロセスにより、脳波の情報を反映した高品質な画像を生成することが可能となります。

DreamDiffusionの技術的な特徴

DreamDiffusionの最大の特徴は、限られた情報量のEEG信号から高品質な画像を生成できることです。脳波にはノイズや個々の人間の脳波の違いといった課題がありますが、それらを克服し、脳からの信号をリアルタイムで視覚化します。

技術的には、DreamDiffusionはEEGエンコーダと拡散モデルという二つの主要なコンポーネントを組み合わせています。

EEGエンコーダの事前学習

EEGエンコーダは、事前学習の段階で、EEGデータと対応する画像データを用いて学習を行います。具体的には、EEGデータとその時点で見ていた画像データとのペアを用いて、エンコーダがEEGデータから画像データを再構成できるように学習します。

このエンコーダは脳波とそれに対応する画像を見て学習し、その結果、脳波だけから画像を再現する能力を身につけます。そして、EEGエンコーダは脳波から潜在的な表現を生成します。この潜在的な表現は、Diffusionモデルに入力され、画像生成の条件として機能します。

拡散モデルの役割

DreamDiffusionでは、拡散モデルを用いて、脳波から画像を生成します。具体的には、EEGエンコーダから得られた潜在的な表現を元にランダムなノイズを生成し、そのノイズを徐々にデータ（画像）に近づくように変化させていきます。このプロセスにより、脳波の情報を反映した高品質な画像を生成することが可能となります。

したがって、EEGエンコーダと拡散モデルは連携して、EEG信号から画像を生成する役割を果たします。EEGエンコーダは脳波から潜在的な表現を生成し、その潜在的な表現は拡散モデルによって画像生成のガイドとして使用されます。この相互作用により、DreamDiffusionは脳波の情報を反映した高品質な画像を生成することが可能となります。

この技術は、脳波から直接画像を生成することが可能であるため、脳波をテキストに変換する必要がなく、より直接的な脳-画像変換を実現します。これにより、DreamDiffusionは脳波の情報をリアルタイムで視覚化する強力なツールとなります。

カテゴリの制限と一般化

DreamDiffusionのモデルは、訓練時に40の異なるカテゴリのEEG信号と画像のペアを使用して学習します。これは、モデルがこれら特定のカテゴリのEEG信号に対して最適化されていることを意味します。したがって、モデルが生成する画像は、これらの特定のカテゴリに対応する可能性が高いです。

これは、現在のDreamDiffusionモデルが訓練データに含まれない新しいカテゴリのEEG信号に対する対応力が限定的であることを示唆しています。

しかし、今後の展開としては、DreamDiffusionのモデルがEEG信号と画像の間の一般的なマッピングを学習することで、一定の一般化能力を持つ可能性もあります。モデルがEEG信号の基本的なパターンとそれが画像にどのように反映されるかを理解することで、未知のカテゴリのEEG信号からも意味のある画像を生成できる可能性があるということです。

ただし、これはあくまで可能性の一つであり、実際の性能は具体的な実験によって確認する必要があります。