テキスト指示で制御可能な3Dアバター生成

2023.09.12

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

「〇〇な人」などのテキスト指示だけで高品質なアバターを生成する手法が開発されました。

○ Sungwon Hwang et al. Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model

アバター関連の技術は多くの研究開発が行われています。しかし高品質なアバター生成は障壁が高く、手軽さや実用性に欠けていました。

研究者らは、テキストプロンプトでアバターを生成し、ユーザーの表情や顔の向きをトラッキングできるフレームワークを開発しました。

■手法のポイント
① NeRFを基にしたモデル開発
② テキストから画像への拡散プロセスを利用
（テキスト記述を3D空間にマッピング）

■実験結果
① テキスト指示に忠実なアバターが生成できた
② 生成された3Dアバターは高品質である

■アバター生成例
① ハンサムな白人男性
② トム・クルーズ
③ ブルース・ウィリス

このような技術が実用化されると、映画産業やVR産業、ファッション産業、心療医療などに役立つ可能性があります。

📄 参照論文

○ Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model

著者: 著者：Sungwon Hwang, Junha Hyung, Jaegul Choo

📎 論文を読む（arxiv.org）

X（Twitter）で見る

テキスト指示で制御可能な3Dアバター生成

📄 参照論文

こちらもどうぞ

🔒 「ありがとう」1回でLED電球3分。AIの電気代を膨らませているのは応答の長さだった

🔒 Web3向けLLMエージェントOS登場オープンソースの新フレームワーク

📄 参照論文

こちらもどうぞ

🔒 「ありがとう」1回でLED電球3分。AIの電気代を膨らませているのは応答の長さだった

🔒 Web3向けLLMエージェントOS登場 オープンソースの新フレームワーク

🔒 Web3向けLLMエージェントOS登場オープンソースの新フレームワーク