拡散LLMの異種蒸留でコード性能1.5倍｜TIDE

拡散型大規模言語モデル（dLLM）は、自己回帰モデルと異なり双方向文脈と並列デコードを扱えるという構造的利点を持つ。しかし最先端のdLLMは競争力を得るために数十億パラメータを要し、実用展開のコスト障壁が残されていた。既存のdLLM蒸留手法は同一アーキテクチャ内で推論ステップを削減するものに限られ、教師と学生でアーキテクチャ・アテンション機構・トークナイザーが異なる『クロスアーキテクチャ知識転移』は未解決のままだった。

TIDEはこの領域に最初の実装解を提示する。構成は3モジュール。TIDALは訓練進捗と拡散タイムステップに応じて蒸留強度を変調し、教師のノイズ依存信頼性を補正する。CompDemoは補完的マスク分割により教師の文脈を豊かにし、重いマスキング下での予測精度を改善する。Reverse CALMはチャンクレベルの尤度マッチングを反転させたクロストークナイザー目的関数で、勾配を有界に保ち両端ノイズをフィルタリングする。

実証では8B密結合モデルと16B MoEモデルを教師に、0.6B学生モデルへ2系統の異種パイプラインで蒸留。8ベンチマーク平均で1.53ポイント向上し、HumanEvalでは自己回帰ベースライン32.3に対し48.78を記録した。特にコード生成での大幅改善は、軽量な開発支援ツールへの応用経路として具体的な数値根拠を与える。

実装コードはGitHub（PKU-YuanGroup/TIDE）で公開されており、日本の開発現場でも社内検証や再現実験が可能な段階にある。dLLMを商用展開する場合の小型化レシピとして、今後の追随研究の参照点になる。

拡散LLMの異種蒸留でコード性能1.5倍｜TIDEの本文内説明図 — 図解: 異種蒸留の仕組み - 大型の拡散LLMから小型モデルへ、3モジュールでクロスアーキテクチャ知識を転移する

押さえるポイント

教師と学生でアーキテクチャ・アテンション・トークナイザーが全て異なる初の蒸留手法
HumanEvalで自己回帰ベースライン32.3から48.78へ、コード生成性能が大幅向上
TIDAL・CompDemo・Reverse CALMの3モジュール構成で実装コードをGitHub公開

5W1Hでサクッと理解 誰が PKU-YuanGroup 
 何を TIDE発表 
 いつ 2026年4月30日 
 どこで arXiv 
 なぜ 異種dLLM蒸留実現 
 どのように 3モジュール構成 

何が起きたか

要点北京大学のYuanグループが、拡散型大規模言語モデル（dLLM）を異なるアーキテクチャ・アテンション機構・トークナイザーを持つ小型モデルへ蒸留する初のフレームワーク「TIDE」をarXivで公開し、実装コードをGitHubで配布した。

3つの視点で読む

開発現場

既存のdLLM蒸留は同一アーキテクチャ内の推論ステップ削減に限定されていたが、TIDEは異なるトークナイザー間で勾配が有界になるReverse CALMを導入し、クロスアーキテクチャ転移という未解決領域に最初の実装解を与えた。0.6B学生が8B密結合および16B MoE教師から学習可能になったことで、dLLM資産を小型モデルに移植する技術的経路が開通した。

事業判断

dLLMは双方向文脈と並列デコードという自己回帰モデルにない特性を持つが、競争力あるdLLMは数十億パラメータ規模が必要だった。0.6BでHumanEval 48.78という数値は、自己回帰ベースライン32.3を上回るコード生成性能を小型モデルで実現した実測値であり、推論コスト制約下でdLLMを採用する技術選択肢が生まれた。

リスク・ルール

該当が薄い。研究論文と実装コード公開の段階で、規制対象となる商用展開や社会実装には至っていない。ただしApache/MIT系の公開コードであれば日本企業の社内検証にも利用可能となり、dLLM研究の再現性と透明性が確保された点は社会的意義がある。

追い風と向かい風

追い風を受ける側

小型モデルでdLLMを使いたい開発者0.6Bクラスで双方向文脈と並列デコードの利点を得る経路が示され、エッジ・オンデバイス用途での選択肢が広がる
コード生成ツール開発者HumanEval 32.3→48.78という実測改善値があり、軽量コード補完モデルの新しい構築レシピとして参照可能
PKU-YuanGroupクロスアーキテクチャdLLM蒸留の『初』を主張し、今後の追随研究の基盤となるポジションを確保

向かい風を受ける側

同一アーキテクチャ蒸留に限定した既存dLLM圧縮手法教師選択の自由度で劣り、異種教師の知識を活用できない制約が相対的に顕在化
自己回帰ベースラインの小型コードモデル0.6B同規模でHumanEval 16ポイント差をつけられ、小型帯域での競争優位が揺らぐ

今やるべきこと

技術判断 確認する TIDEの論文でTIDAL・CompDemo・Reverse CALMの各モジュールが担う役割と、8ベンチマークの内訳・教師モデル構成を確認する

事業判断 比較する 0.6B学生のHumanEval 48.78を自社利用中の小型コードモデル（自己回帰系含む）と同一ベンチで比較し、採用可否の判断材料を記録する

実装・検証 試す GitHub公開の実装コードを入手し、自社の教師候補モデルで異種トークナイザー間のReverse CALM挙動と勾配安定性を測る

時系列タイムライン

2026年4月30日 arXivで論文『Turning the TIDE』が公開、実装コードもGitHubで配布開始
2026年4月30日 8B密結合・16B MoE教師から0.6B学生への蒸留結果として、HumanEval 48.78（ベースライン32.3）を報告
今後異種アーキテクチャ蒸留の追随研究・再現実験が進む段階

情報ソース

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models 一次情報技術論文
PKU-YuanGroup/TIDE 実装コード公式実装
モデル配布: What is Huggingface? モデル配布
モデル配布: What is Spaces? モデル配布

学術の記事

読み込み中...

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

SNSの反応

主な声

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

学術の記事