幾何学的に正しい超リアル人物生成 HyperHuman

2023.10.15

画像・Vision（画像認識、VLM、マルチモーダル、OCR）

📝 これは「短信」です ― AIDBリサーチチームが独自の視点で論文を紹介する、カジュアルで読みやすいコンテンツです。

AI生成イラストにおける人物の「不自然さ」や「人工物感」を極限まで取り除いた画像生成技術『HyperHuman（ハイパーヒューマン）』が開発されました。

デモサイトでその正確性、精細さを確認できます。

SnapChat運営のSnap Inc.などの研究者らによる発表です。

○ Xian Liu et al., “HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion”

人物を画像生成する際には、非現実的なポーズや不自然な部分（手足など）が生成される問題がありました。
既存モデルは、解剖学的に一貫性がないものを生成する傾向があります。

そこで研究者らは、非常に細かいレベルで幾何学的に正しい画像を生成する技術を開発しています。

■『HyperHuman』のフレームワーク
① Latent Structural Diffusion Model：RGB画像、深度、表面法線を同時にデノイズする
② Structure-Guided Refiner：高解像度の詳細な生成のために予測条件を合成する

■評価データセットと実験
①人体に関する大規模なデータセット『HumanVerse』を構築
② 上記データセットには、人間のポーズ、深度、表面法線などの包括的な注釈が含まれている
③ 複数の実験を通じて、フレームワークの効果を評価

■実験の結果
『HyperHuman』で生成された人間の画像は、さまざまなパターンで、極めて現実的であると評価された

■研究者らによる主な結論
①本フレームワークは、高度に現実的な人間の画像を多様なレイアウトで生成することができる
② 本研究は人物生成における基盤となるモデルの一つとして今後の業界に寄与する

□注意点に関する考察
① 構築されたデータセット（HumanVerse）は大規模すぎて扱いが難しい恐れがある
② 過学習に陥らないように工夫が必要
③ 超リアルな人物画像を悪用しない／されない対策が重要
④ 生成される人物画像にバイアスがないか検証が必要

論文情報と関連研究

📎 論文を読む（arxiv.org）

こちらもどうぞ