4台の動画から4D人体映像｜Diffuman4D公開

学術オープンモデル・OSS GitHub・Hugging Face 05/10 23:02

Diffuman4Dは、浙江大学のZJU3DVグループが公開した、スパース視点動画から4D一貫性を保った人体自由視点映像を生成する時空間拡散モデルである。ICCV 2025採択論文の実装として、GitHubに推論コード、Hugging Face『krahets/Diffuman4D』に学習済みモデル、さらに再アノテーション済みDNA-Renderingデータセットがそれぞれ公開された。

技術的な核は、4台程度のカメラ映像を入力として、最大44視点×150フレームに及ぶ4D画像グリッドを生成できる点にある。視点方向と時間方向の整合性を1つの拡散モデルで同時に扱う設計のため、出力された多視点動画をそのまま3DGS／4DGS再構成に流し込めば、nerfstudio経由で自由視点レンダリングまで一気通貫で検証できる。リポジトリにはSapiensによるキーポイント推定、骨格三角測量、前景マスク予測といったカスタムデータ処理スクリプトも同梱されており、自前撮影素材を投入する敷居が低い。

配布されるDNA-Rendering処理済みデータは、48カメラ・最大225フレーム・1000件超のシーケンスで計約1000万枚規模に達する。これは人体多視点研究のベンチマーク基盤として大きく、後続のアバター生成・ボリュメトリックビデオ研究の比較土台になる。

意思決定の観点では、48台規模のボリュメトリックスタジオを前提としていた制作工程に、4台撮影＋生成補完という選択肢が加わった意味が大きい。映像制作・スポーツ中継・XRコンテンツの企画段階で、撮影コストと出力品質のトレードオフを再設計できる。一方で、実在人物の多視点合成が容易になることで、肖像権・出演契約上の利用範囲定義が現場の優先課題として浮上する。

4台の動画から4D人体映像｜Diffuman4D公開の本文内説明図 — 図解: 4台から44視点へ、撮影リグの再設計 - 時空間拡散グリッドが入力リグと再構成パイプラインの間を埋める

押さえるポイント

わずか4台のカメラ映像から44視点×150フレームの4D映像を生成可能
ICCV 2025採択。コード・学習済みモデル・データセットが一括公開
48カメラ・約1000万枚規模の再アノテーション済みDNA-Renderingを同梱

5W1Hでサクッと理解 誰が ZJU3DV研究グループ 
 何を Diffuman4D公開 
 いつ ICCV 2025採択 
 どこで GitHub・Hugging Face 
 なぜ 4D人体映像合成基盤提供 
 どのように 時空間拡散モデル 

何が起きたか

要点浙江大学ZJU3DVが、4台程度のスパース視点動画から最大44視点×150フレームの4D一貫した人体映像を生成する時空間拡散モデル「Diffuman4D」のコード・モデル・データセットをGitHubとHugging Faceで公開した。

3つの視点で読む

開発現場

時空間拡散モデルにより、視点間・フレーム間の整合性を同時に解く設計。スパース入力（4視点）から密視点（44視点）への外挿を1モデルで行い、後段の3DGS/4DGS再構成と組み合わせて自由視点レンダリングまで通せるパイプラインが揃った。

事業判断

48カメラスタジオを持たない制作会社・研究室でも、4台規模のリグで人体ボリュメトリック撮影に着手できる素材が揃った。学習済みモデルとnerfstudio連携により、独自実装コストを払わずに自由視点映像の検証フェーズに入れる。

リスク・ルール

実在人物の多視点映像を少数カメラから合成できるため、肖像権・パブリシティ権の運用ルール整備が制作現場で先行課題になる。生成映像の利用範囲と本人同意の記録方法を、撮影契約段階で定義する必要が生じる。

追い風と向かい風

追い風を受ける側

中小規模の映像・XR制作スタジオ48カメラのボリュメトリックスタジオを持たずとも、4台規模のリグで自由視点素材の制作検証に入れる
3D/4D再構成研究者1000件以上・約1000万枚の再アノテーション済み多視点動画が公開され、後続研究のベースラインに使える
スポーツ・ライブ配信事業者限られた中継カメラ素材から自由視点リプレイを構築する基礎技術が公開コードで検証可能になった

向かい風を受ける側

高密度カメラリグに依存する従来ボリュメトリック撮影サービススパース視点入力で近い品質が出るなら、48台規模スタジオの差別化要因が縮む
プロプライエタリな4D人体生成SaaSコード・モデル・データが一括OSS公開されたため、クローズドソリューションの価格交渉力が下がる

今やるべきこと

技術判断 確認するライセンス条項、DNA-Renderingデータセットの利用規約、商用可否、肖像権同意の前提を確認する

事業判断 定義する自社制作フローで4台撮影→44視点出力に置き換えた場合のコスト削減目標と品質受け入れ基準を定義する

実装・検証 試す公開モデルとnerfstudioパイプラインで自前4視点素材を入力し、44視点出力と4DGS再構成の品質を測る

時系列タイムライン

2025年7月論文がarXiv（2507.13344）に掲載
ICCV 2025 Diffuman4D論文が採択
2026年4月10日 GitHubリポジトリで実装・モデル・データセット配布が確認される（GitHub stars 599）

情報ソース

zju3dv/Diffuman4D GitHubリポジトリ一次情報公式実装
Diffuman4D 論文 (arXiv:2507.13344) 一次情報技術論文
Diffuman4D 学習済みモデル公式モデル配布
再アノテーション済みDNA-Renderingデータセット公式データセット
Diffuman4D サンプルテストデータ公式データセット

学術の記事

読み込み中...

4台の動画から4D人体映像｜Diffuman4D公開

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

関連動画

情報ソース

人気記事ランキング

学術の記事

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

SNSの反応

主な声

関連動画

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

学術の記事