AIDBは、生成AIやバイブコーディング、AIエージェントの最前線を研究報告ベースで知ることができるプラットフォームです。AI活用のノウハウ獲得や技術動向の調査のために、論文を探す・読む・活かすを一気通貫でサポートします。

検索対象: 記事(836件) 短信(643件) 🔒 論文(14,168件) 🔒

人物の「不自然さ」を極限まで取り除いて超リアルな画像を生成する『HyperHuman（ハイパーヒューマン）』

2023.10.172025.03.08

人物のイラスト生成AIも高度化しています。しかし、多くの生成モデルでは「不自然さ」や「人工物感」が残ってしまうことがまだ一般的です。この問題を解決するために、SnapChat運営のSnap Inc.などの研究者らが『HyperHuman（ハイパーヒューマン）』という新しい画像生成技術を開発しました。

AIが生成する人物イラストがどれだけリアルになるのかを体感することができます。

参照論文情報

・タイトル：HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
・著者：Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
・所属：The Chinese University of Hong Kong, The University of Hong Kong, Nanyang Technological University, Snap Inc.
・URL：https://doi.org/10.48550/arXiv.2310.08579
・プロジェクトページ：https://snap-research.github.io/HyperHuman/

https://twitter.com/ai_database/status/1713437768272286166

従来の課題と背景

人物画像生成の困難性

人物を画像生成する際には、多くの課題が存在しています。代表的なものが、非現実的なポーズや不自然な部分（手足など）が生成される問題です。生成モデルが人体の解剖学的な認識が不足しているために起こる現象です。

既存モデルの限界

既存のモデルは、構造に対する一貫性がない人物を生成する傾向があります。技術的な要因としては、不安定な訓練、モデルサイズの小ささなども存在します。

また既存のデータセットは、解像度が低い、多様性に欠ける、または規模が不十分など、多くの問題があります。これが高品質なモデルの訓練を妨げているとも考えられています。

また、最近その性能が高い評価を受けているDALL•E3は「リアルすぎる人物画像」はあえて出力を限定する方針も表明しています。そのような背景もあり、極めてリアルな人物の画像を生成したい場合に、どのモデルがベストなのかは明確ではない状況です。

『HyperHuman』のフレームワーク

フレームワークの全体像と目的

『HyperHuman』は、人物画像生成における新たなパラダイムを提供する統一されたフレームワークです。人物画像が「多様な粒度で構造的に整っている」という基本的なコンセプトに基づいて設計されています。粗いレベルの体の骨格から、細かいレベルの空間幾何学まで、人物画像の多様な構造要素を網羅しています。

主要なコンポーネントとその機能

1. Latent Structural Diffusion Model（潜在構造拡散モデル）

モデルは、RGB画像、深度、表面法線の3つの要素を同時にデノイズ（ノイズ除去）する能力を持っています。画像の外観、空間関係、幾何学的特性を一つの統一されたネットワーク内で同時に学習することができます。各ブランチ（部分）は、構造的な認識とテクスチャの豊かさの両方で互いに補完します。

2. Structure-Guided Refiner（構造ガイドリファイナー）

このコンポーネントは、高解像度でより詳細な画像生成を目的としています。空間的に整列された構造マップを用いて、高解像度で詳細な生成を行います。生成された条件（例：ポーズ、表情など）を合成して、よりリアルな画像を出力します。

評価データセットと実験

データセットの構築

研究者らは、まず、人体に関する大規模データセット『HumanVerse』を構築しました。『HumanVerse』は、既存のデータセット（例：Market-1501）に対し、比較的高品質な画像を提供します。
データセットは、LAION-2B-enとCOYO-700Mからキュレーションされ、人物が1〜3人含まれる画像のみが保持されました。さらに、人物が15%以上の面積で表示される画像が選ばれています。