CMAGが解こうとしている問題

メタバースのアバターマーケットプレイスは、トップス・ボトムス・シューズ・アクセサリといったカテゴリとトポロジの制約を持つ離散的な3Dアセットを組み合わせて作られる。ユーザーは自由なテキスト指示でアバターを作りたいが、自然言語はプラットフォームのタクソノミに対して曖昧で、メタデータもノイジーで、独立に検索したパーツはスタイル不整合や幾何学的非互換を起こしやすい。CMAGはこの「テキスト指示と既存カタログのギャップ」を埋めることを目的にしている。

CMAG, a concept-scaffolded retrieval and verified composition framework for marketplace avatar generation.

アーキテクチャの要点

CMAGはまずプロンプトから中間3Dコンセプトスキャフォールドを合成し、空間配置とスタイルの全体文脈を作る。並行して view-aware part discovery がプロンプト分解と text-grounded segmentation で部位ごとの視覚的根拠を取り出す。次にプロンプト条件付きタクソノミルーターがカテゴリカバレッジを強制し、意味と分類の食い違いを解消。ハイブリッドな category-wise retriever が部位融合と concept-residual フォールバックを組み合わせ、最後にエージェント型VLMがカテゴリ横断で候補をフィルタ・再ランキングし、反復検証ループで「プロンプト忠実かつトポロジ整合的」なアバターをカタログ資産から組み上げる。

国内事業者にとっての示唆

日本のVRChat/cluster/Vket周辺の事業者・スタジオにとって、CMAGの含意は明確だ。生成AIで「ゼロから作る」のではなく、既存クリエイター経済を維持したままテキストUXを上に載せる経路が研究側から具体化された、ということ。タクソノミルーターは自社カテゴリ体系に依存するため、移植には自社カタログのメタデータ整備が前提になる。CVPR 2026ワークショップ採択により今後の追試・派生実装が増える領域として、評価指標と実装コストを追っておく価値がある。