脳内映像再現の世界：生成AIで脳から画像・映像へ

本記事では、人間の脳活動から視覚情報を再構築する最新の研究について紹介します。脳から直接視覚情報を取り出すというアイデアは、ブレイン・マシン・インターフェースの発展だけでなく、視覚障害の治療や仮想現実（VR）技術の進化にも寄与する可能性があります。そこで、この分野で注目すべき2つの研究事例を紹介します。一つは「脳内を画像へ」、もう一つは「脳内を映像へ」に焦点を当てた研究です。これらの研究は、それぞれ異なるアプローチを用いて脳からの視覚情報の再構築に挑んでいます。

関連研究

Stable Diffusionで脳内映像を見る！大阪大学の研究者らが開発

Minecraft(マイクラ)プレイ中の脳をAIで解析したら男女差が浮き彫りに

MIT、人間の脳とAIがどれだけ似ているか分かる「Brainスコア」を開発

ブレイン・マシン・インタフェースとは

BMI（ブレイン・マシン・インタフェース）は、脳の電気的活動と外部デバイス（最も一般的にはコンピュータやロボットの肢体）との間の直接的な通信経路を提供するもので、人間の認知機能や感覚運動機能の研究、補助、増強、修復を目指しています。BMIは、身体部位の物理的な動きという中間要素をスキップしたヒューマン・マシン・インタフェースとして概念化されることが多いです。

BMIの研究は動物実験が主ですが、人間に神経義肢デバイスが埋め込まれた実験もあります。最近では、前頭葉（EEG脳波）データから統計的な時間的特徴を抽出して機械学習を適用することによる人間-コンピュータ間のインタラクションの研究が、精神状態（リラックス、中立、集中）や精神的な感情状態（ネガティブ、中立、ポジティブ）の分類において高い成功率を示しています。

今回紹介する研究は、このBMIの一部として位置づけられます。脳内映像再現技術は、脳の電気的活動を解析し、それを映像として再現することで、人間の思考や感覚を直接視覚化することを可能にするものです。このような技術は今後、人間の認知機能の理解と拡張に対する新たな道を開く可能性があります。

脳内を画像へ

今回紹介する1つ目の研究は、脳内映像を静止画像として復元する技術です。

大阪大学などの研究者たちは、人間の脳活動から高解像度の静止画を再構築するための新たなアプローチを提案しています。

参照論文情報

タイトル：High-resolution image reconstruction with latent diffusion models from human brain activity

著者：Yu Takagi、Shinji Nishimoto

所属：大阪大学など

URL：https://doi.org/10.1101/2022.11.18.517004

プロジェクトページ：https://sites.google.com/view/stablediffusion-with-brain/

潜在拡散モデル（LDM）の導入

具体的には、この研究では「安定拡散」と呼ばれる潜在拡散モデル（LDM）を導入しています。LDMは、画像の生成過程を時間的な拡散過程としてモデル化する手法で、生成される画像の品質を保ちつつ、計算コストを大幅に削減することが可能です。LDMは、ランダムなノイズから始まり、そのノイズを徐々に変形して目的の画像を生成します。これにより、高い生成性能を保ちつつ、拡散モデル（DM）の計算コストを削減することが可能となります。

なお、この研究で用いられた具体的なアプリケーションは、Stable Diffusionというイラスト生成AIです。Stable Diffusionは、画像の生成過程を時間的な拡散過程としてモデル化する手法で、生成される画像の品質を保ちつつ、計算コストを大幅に削減することが可能です。この技術を用いて、脳活動からの高解像度画像の再構築に成功しています。

LDMの内部メカニズムと脳機能との関連性

さらに、この研究ではLDMの内部メカニズムを特徴付けるために、その異なるコンポーネント（画像の潜在ベクトルZ、条件付け入力C、ノイズ除去U-Netの異なる要素など）がどのように異なる脳機能と関連しているかを調査しています。これにより、脳活動と画像生成の間の関連性をより深く理解することが可能となります。

この研究は、従来の手法に比べて計算コストを大幅に削減しながらも、高品質な画像再構築を可能にしたという点で、脳活動からの画像再構築における重要な進歩を示しています。さらに、この手法は静止画の再構築に特化しており、一枚一枚の画像が持つ詳細な情報を精緻に再現することが可能です。