継続学習(Continual Learning)とは、モデルが新しいタスクを順番に学習しながら、過去に学んだ知識を忘れないようにする技術領域だ。この分野では「破滅的忘却」をどう防ぐかが中心課題であり、online EWC・LwF・SI・GEMといった手法が標準的なベンチマークで競われてきた。
2026年4月24日にarXivで公開された本論文は、そのベンチマーク競争の前提そのものに問題があることを実験的に示した。論文の核心的な主張は「ファインチューニング方式、すなわちどの層のパラメータを学習可能にするかという選択が、手法比較の結論を変える独立した変数である」という点だ。
実験では、MNIST・Fashion MNIST・KMNIST・QMNIST・CIFAR-100の5データセットを使用し、各データセットで11通りのタスク順序を設定。4手法を5種類の学習可能深さ方式で比較した。その結果、手法の相対順位は方式間で一貫して保たれなかった。つまり、ある方式では手法Aが最良でも、別の方式では手法Bが最良になるという逆転が生じた。
さらに、深い層まで学習可能にする方式ほど更新量が大きくなり、忘却も増加し、更新量と忘却量の相関も強まることが示された。これは直感的にも理解しやすい結果だが、それが手法の優劣判定に直接影響するという点が重要だ。
この発見が実務に与える影響は大きい。継続学習を本番環境に導入する際、多くのチームは既存ベンチマーク論文の結果を参照して手法を選定する。しかし、その論文が使用したファインチューニング方式が自社の実装設定と異なれば、選定根拠が崩れる。論文がファインチューニング方式を明示していない場合、再現すら困難だ。
論文は「学習可能深さを明示的な実験変数として扱う方式認識型評価プロトコル」の必要性を提起している。継続学習の評価標準化議論において、この視点は今後避けられない論点となる。