Allen Institute for AI(AI2)が、事前学習段階からMixture of Experts(MoE)構造を創発的に獲得させる手法「EMO(Pretraining mixture of experts for emergent modularity)」をHugging Face Blogで公開した。実装コードはGitHubのallenai/EMOリポジトリで配布されている。
MoEは、入力ごとに専門家ネットワーク(Expert)を選択的に活性化させることで、パラメータ数を増やしつつ計算量を抑えるアーキテクチャである。Mixtral、DeepSeek-MoE、GPT系などで採用されているが、多くの実装ではExpert分割とルーティングを設計者が事前に与える。EMOは「モジュール性そのものを学習過程で創発させる」点に焦点を置いた設計と読み取れる。
読者にとっての意味は二層ある。第一に、MoE研究の再現素材が増えたことだ。AI2は記事と実装コードを同時に出しており、後付けMoE変換とは異なる設計選択肢を手元で検証できる。第二に、オープンな事前学習研究のベースラインが更新される点である。OLMoシリーズで蓄積された公開研究の流れに、MoE方向の具体的成果物が加わった。
現時点で確認すべきは、想定モデル規模・計算コスト・既存MoEとの定量比較・公開モデル重みの有無である。これらは記事本文とリポジトリのREADMEで確認する必要がある。日本国内の開発現場では、自社で疎活性モデルを試作するチームにとって参照価値が高い一方、APIで既存LLMを利用するチームへの直接影響は限定的である。