DiTの外れ値トークン問題、DSRで画質向上｜arXiv論文

Vision Transformer（ViT）では、一部のトークンが異常に高いノルムを持ち、アテンションを不釣り合いに集める「外れ値トークン」現象が以前から知られていた。これらは局所的な情報をほとんど運ばず、アテンションシンクとして機能することが報告されてきたが、生成モデルにおける役割は十分に解明されていなかった。

本論文は、この現象が現代的なRepresentation Autoencoder（RAE）-DiTパイプラインの両端で発生することを示した。事前学習済みViTエンコーダが外れ値表現を出力するだけでなく、DiT自身も特に中間層で内部的な外れ値トークンを発生させる。注目すべきは、高ノルムトークンを単純にマスクしても生成品質が改善しない点だ。これは問題が「いくつかの極端な値」ではなく、「局所パッチの意味が破壊されている」ことに由来することを示唆する。

提案手法Dual-Stage Registers（DSR）は、両コンポーネントに対するレジスタベースの介入で、状況に応じて3種を使い分ける。学習が可能な場合は「学習済みレジスタ」、不可能な場合は「再帰的テスト時レジスタ」、そしてデノイザー向けに「拡散レジスタ」を導入する。ImageNetと大規模テキスト→画像生成の両タスクで、これらの介入が一貫してアーティファクトを減らし、生成品質を改善することが実験で確認された。

実装面では、テスト時レジスタが追加学習を要しない点が大きい。既存のDiTベースサービスに対し、推論パイプライン側での介入のみで品質改善を試せる余地があることを意味する。外れ値トークン制御は、より強力なDiTを構築する上での重要な構成要素として位置づけられた。

DiTの外れ値トークン問題、DSRで画質向上｜arXiv論文の本文内説明図 — 図解: DiTの外れ値トークンをDSRで抑える二段介入 - エンコーダとデノイザーで同じ病理が再発する／単純マスクが効かない理由と、3種レジスタの差し込み位置

押さえるポイント

RAE-DiTパイプライン全体で外れ値トークンが発生することを初めて体系的に確認
高ノルムトークンを単にマスクするだけでは品質改善せず、パッチ意味の破壊が本質
学習済み・再帰的テスト時・拡散の3種レジスタを組み合わせたDSRを提案

5W1Hでサクッと理解 誰が arXiv論文著者 
 何を DSR手法を提案 
 いつ 2026年5月7日 
 どこで arXiv 
 なぜ 外れ値トークン制御 
 どのように 3種レジスタ併用 

何が起きたか

要点DiT（Diffusion Transformer）のエンコーダとデノイザー双方に発生する外れ値トークンを制御する手法「Dual-Stage Registers（DSR）」がarXivで公開され、ImageNetと大規模テキスト→画像生成の両方でアーティファクト低減と品質向上を確認した。

3つの視点で読む

開発現場

ViTの高ノルム外れ値問題がDiTの中間層とRAEエンコーダの両方で再現することを示した。単純マスクが効かない=局所パッチの意味情報が破壊されている、という診断は、今後のDiT設計でアテンションシンクの扱いを前提にする必要があることを意味する。

事業判断

既存のDiTベース商用画像生成サービスに対し、再学習不要な再帰的テスト時レジスタで品質改善できる介入レイヤーが提示された。推論パイプライン側の最適化で差別化できる余地が生じ、基盤モデルを自前で持たない事業者にもチューニング余地が広がる。

リスク・ルール

規制への直接影響は薄い。ただし生成画像のアーティファクト低減は、広告・報道・医療画像など用途で「画像の信頼性」要件を満たしやすくする方向に働く。

追い風と向かい風

追い風を受ける側

DiTベース画像生成サービス運営者再学習なしで適用可能なテスト時レジスタにより、既存モデルの推論パイプラインでアーティファクト低減を試せる
RAE-DiTアーキテクチャを採用する研究者エンコーダとデノイザー双方での外れ値発生が体系的に示され、設計時の介入ポイントが明確化された
画像生成の品質改善を担う実装エンジニア学習済みレジスタ・テスト時レジスタ・拡散レジスタの使い分け指針が提示された

向かい風を受ける側

単純な高ノルム除去で外れ値問題を解決しようとしていたアプローチマスクのみでは改善しないことが実験で示され、設計見直しが必要になる

今やるべきこと

技術判断 確認する自社/採用中の画像生成モデルがRAE-DiT系かを確認し、エンコーダとデノイザーの中間層トークンのノルム分布を確認する

事業判断 定義する生成品質改善PoCの成功条件を、アーティファクト発生率・FID・ユーザー主観評価の3指標で定義する

実装・検証 試す再帰的テスト時レジスタを既存DiT推論パイプラインに挿入し、ImageNetサンプルで品質差分を測る

時系列タイムライン

以前 ViTで高ノルム外れ値トークン現象が報告される
以前 RAE-DiTパイプラインが画像生成で普及
2026年5月7日「Taming Outlier Tokens in Diffusion Transformers」がarXivで公開

情報ソース

Taming Outlier Tokens in Diffusion Transformers 一次情報公式技術
モデル配布: What is Huggingface? モデル配布
モデル配布: What is Spaces? モデル配布

学術の記事

読み込み中...

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

SNSの反応

主な声

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

学術の記事