SFT→RL逐次学習が混合ポリシーを逆転：DeepSpeedとOpenRLHFのバグが原因

2026年4月26日にarXivで公開された本論文は、近年盛んに提案されてきた「混合ポリシー最適化」手法の優位性主張の根拠を揺さぶる内容である。著者らは、比較対象となってきた標準SFT-then-RLパイプラインのベースラインが、2つの独立した実装バグにより不当に低いスコアに抑え込まれていたと指摘する。
第一のバグはDeepSpeedのCPUオフロードオプティマイザに存在し、勾配累積中に中間マイクロバッチをサイレントに破棄する。このコードパスはTRL、OpenRLHF、Llama-FactoryといったLLMファインチューニングの主要フレームワークから利用されており、影響範囲は広い。第二のバグはOpenRLHF固有で、ミニバッチ毎の損失の重み付けを誤って集約する。著者らによれば、性能差の大部分はオプティマイザ側のバグが説明し、損失集約バグは補助的に寄与する。
両バグを修正したうえで再評価すると、標準SFT-then-RLはQwen2.5-Math-7Bで+3.8点、Llama-3.1-8Bで+22.2点、評価したすべての既発表混合ポリシー手法を上回った。さらにRLステップをわずか50回に切り詰めた短縮版でさえ、より少ないFLOPsで混合ポリシー手法を上回ると報告されている。
実務面での含意は明確だ。TRL・OpenRLHF・Llama-Factoryを用いて行われた過去のSFT結果は、学習ログが正常に見えていても実効的な更新が欠落していた可能性がある。独自RL手法を内製・採用する前に、まず修正済みの標準パイプラインを同条件で走らせ直し、改善幅の再定義を行うことが必要となる。

SFT→RL逐次学習が混合ポリシーを逆転：DeepSpeedとOpenRLHFのバグが原因の本文内説明図 — 図解: バグが歪めた比較 - 実装バグ修正後、逐次学習が混合ポリシーを逆転した

押さえるポイント

DeepSpeedのCPUオフロード時、勾配累積中に中間マイクロバッチをサイレント破棄
OpenRLHFの損失集約バグがミニバッチ毎の損失重みを誤計算
修正後SFT-then-RLはLlama-3.1-8Bで+22.2点、Qwen2.5-Math-7Bで+3.8点

5W1Hでサクッと理解 誰が arXiv論文著者 
 何を SFTバグを指摘 
 いつ 2026年4月26日 
 どこで arXiv 
 なぜ 誤ベースライン検証 
 どのように バグ修正後に再評価 

何が起きたか

要点arXivに公開された論文が、LLM推論向け混合ポリシー最適化手法の優位性報告は、DeepSpeedのCPUオフロード時の勾配累積バグとOpenRLHFの損失集約バグによる「歪んだSFTベースライン」に依存していたと示した。バグ修正後の標準SFT-then-RLは、評価したすべての混合ポリシー手法を上回った。

3つの視点で読む

開発現場

CPUオフロードオプティマイザ下での勾配累積という、SFTで多用される構成そのものに欠陥が存在した。マイクロバッチ損失が静かに捨てられるため、学習ログ上は正常に見えても実効バッチサイズと更新回数が食い違う。LLMのファインチューニングを行う開発者は、自分のパイプラインが同じコードパスを踏んでいないかを検証軸に加える必要がある。

事業判断

混合ポリシー手法を前提に開発投資・論文投稿・製品ロードマップを組んだ組織は、+22.2点規模の差で標準SFT-then-RLに逆転される構図に直面した。「シンプルな逐次学習＋少数RLステップ」で同等以上が出るなら、独自RL手法の内製コストと学習予算の正当化が崩れる。

リスク・ルール

査読済みを含む複数論文のベースラインが誤っていたという報告は、LLM評価の再現性と公開ベンチマーク運用の信頼性に直結する。規制そのものより、研究コミュニティにおける結果の検証責任と、評価レポートを根拠とする調達・採択判断の扱いが問われる。

追い風と向かい風

追い風を受ける側

標準SFT-then-RLパイプライン採用チームバグ修正後、複雑な混合ポリシー手法より高い数学ベンチマークスコアを、より少ないFLOPsで達成できると示された
Qwen2.5-Math-7B / Llama-3.1-8B を使う実務者論文で具体的に改善幅が報告された構成で、再現可能な上振れを取りにいけるため
計算コストを抑えたい現場RLステップ50回の短縮版でも混合ポリシーを超えるとされ、学習予算の圧縮余地が明示された

向かい風を受ける側

混合ポリシー最適化手法を提案する既発表論文比較対象だったSFTベースラインが実装バグで抑制されており、優位性の主張が揺らいだ
DeepSpeed CPUオフロード依存のSFT実験結果勾配累積中のマイクロバッチ破棄の影響を受けた学習は、性能を過小評価している
OpenRLHFの既存損失集約ロジックに依存したRLHF実験ミニバッチ毎の損失重み付け誤りが結果に上乗せで影響していた

今やるべきこと

技術判断 確認する自組織のSFT/RLHFがDeepSpeedのCPUオフロードオプティマイザと勾配累積を併用しているか、TRL・OpenRLHF・Llama-Factoryのバージョンが当該バグ修正を取り込んでいるかを確認する

事業判断 比較する混合ポリシー手法への投資判断を、修正後SFT-then-RLを同条件で再走したスコアとFLOPsコストと比較し直し、採否を記録する

実装・検証 切り分ける同一データ・同一ハイパラで(1)CPUオフロード有無、(2)OpenRLHF損失集約パッチ有無を変えた4条件を走らせ、SFTスコア差分を測って原因を切り分ける

時系列タイムライン

2026年4月26日 arXivに『SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning』が公開
2026年4月26日〜 DeepSpeed CPUオフロードのマイクロバッチ破棄バグとOpenRLHFの損失集約バグが、TRL・OpenRLHF・Llama-Factory利用研究に広範な影響と指摘
2026年4月28日 LLMファインチューニング実務者・研究者コミュニティで、過去のSFTベースライン再評価の議論が表面化