「キャラの一枚絵からアニメ映像を生成する」新手法『ReferenceNet(Animate Anyone)が登場しました。
複雑な外観を一貫して保ちつつ、ポーズの変更が可能であることが示されています。
アリババの研究者らによる発表です。
@ Li Hu et al., “Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation”
論文によると、従来は画像からアニメーションや動画を作成する際にキャラクター(あるいは人物)の動きに一貫性が欠けていました。
そこで研究者らは『ReferenceNet』という新しいフレームワークを導入し、様々なポーズが入れ替わるスムーズな動きを実現しています。
■『ReferenceNet』の特徴
① キャラクターの動きを制御する「ポーズガイダー」を導入
② 時間が経過しても一貫性が維持されるための”temporal layer”を導入
■性能評価テスト
①5,000のキャラクタービデオクリップ(2〜10秒長)を収集してモデルトレーニング
② ビデオ内のキャラクターのポーズシーケンスを抽出し、ポーズスケルトン画像にレンダリング
③トレーニングは2段階、最初は個々のビデオフレームを30,000ステップ、次に時間層を24フレームビデオシーケンスで10,000ステップトレーニング
■テスト結果
① CLIP特徴のみ、ControlNetより優れた結果を示す
② 定量的な評価として、SSIM, PSNR, LPIPS, FVDの各指標で最も優れたスコアを達成
非常になめらかに複雑な動きを再現する一方、「手の動き」における安定性に関してのみ、まだ課題があると述べられています。