vLLM V1移行でRL学習が壊れる4つの罠と対処法

実装・ノウハウオープンモデル・OSS Hugging Face Blog 05/07 05:02

ServiceNow AIチームは、vLLM V0からV1への切り替え時にオンライン強化学習の正確性が崩れる現象について、原因を4つに整理した技術ブログを公開した。ポイントは、RL目標側を触る前に推論バックエンドの正確性を先に確認せよという診断順序にある。

第一に、V1はデフォルトで生logprobs（温度スケーリング等の後処理前の値）を返す。RLではトレーナーとロールアウト側で同一のlogprobsが必要なため、`logprobs-mode=processed_logprobs`を明示する必要がある。第二に、プレフィックスキャッシュが有効な状態では、モデル重みの更新境界をまたいで旧重みでのキャッシュが再利用され、新しいポリシーのlogprobsと整合しなくなる。

第三に、インフライト重み更新の挙動がV0とV1で異なる。V1では`mode='keep'`かつ`clear_cache=False`を指定することで、V0相当の挙動に近づけられる。第四に、トレーナーとロールアウトバックエンドでlm_headの計算精度を揃える必要がある。fp32での一致が最終的なlogprobsパリティの条件であり、この論点はMiniMax-M1の技術レポートやScaleRL論文でも独立に報告されている。

意思決定への含意は明快だ。RL学習が収束しない、報酬が想定通り伸びないといった症状に直面したとき、損失関数やKLペナルティの係数を触る前に、推論エンジン側の4設定を確認する。バックエンドの正確性が担保されて初めて、RL目標の修正が有効な介入となる。V1への移行を計画するチームは、PipelineRLの公開実装を参照しつつ、移行前後でtoken単位のlogprobs差分を測るチェック手順を整備しておきたい。

vLLM V1移行でRL学習が壊れる4つの罠と対処法の本文内説明図 — 図解: RLスキル生成 - ロールアウトlogprobsをトレーナーと一致させるためのバックエンド診断順序

押さえるポイント

V1はデフォルトで生logprobsを返すため`processed_logprobs`指定が必須
プレフィックスキャッシュが重み更新をまたいで再利用されRLが壊れる
インフライト重み更新は`mode=keep`と`clear_cache=False`でV0挙動に近似

5W1Hでサクッと理解 誰が ServiceNow AI 
 何を V1移行の罠を公開 
 いつ 2026年5月7日 
 どこで Hugging Face Blog 
 なぜ RL学習の再現性確保 
 どのように 4設定の修正手順提示 

何が起きたか

要点ServiceNow AIが、vLLM V0からV1への移行時にオンラインRL学習の正確性が損なわれる4つの設定上の落とし穴と、その修正手順を解説する技術ブログを公開した。

3つの視点で読む

開発現場

RL学習のずれは損失関数やハイパーパラメータではなく、推論エンジン側のlogprobs後処理・KVキャッシュ再利用・重み更新境界・lm_head精度という4つの設定に起因する。V1の新デフォルトはスループット最適化を優先しており、RL用途では明示的に打ち消す必要がある。

事業判断

vLLMはオンラインRL推論バックエンドとして広く採用されており、V1への切り替えを予定する研究室・企業が同じ再現性崩れに直面する。ServiceNow AIのPipelineRL実装に基づく具体的フラグ値が公開されたことで、移行コストと再学習の無駄を削減できる。

リスク・ルール

規制の直接的な該当は薄い。ただしRL学習結果の再現性はモデル評価・監査の前提であり、推論バックエンドの設定差で結果が変わる事実は、学習ログと推論設定の紐付け記録の重要性を裏付ける。

追い風と向かい風

追い風を受ける側

オンラインRLを運用する研究室・企業V1移行時の既知の落とし穴と修正フラグが体系化され、デバッグ時間が短縮される
ServiceNow AI / PipelineRL実装知見を公開することでRLインフラ領域での技術的プレゼンスが高まる
vLLMコミュニティRL用途の設定パターンが明文化され、V1採用の障壁が下がる

向かい風を受ける側

V0に依存し移行を先送りしたチームV0のサポート縮小に対し、V1での設定差を改めて検証するコストを負う
バックエンド検証をスキップしRL目標を調整してきたチーム原因が推論側にあった場合、過去の調整が無効だったと判明する

今やるべきこと

技術判断 確認する自チームのvLLM構成で`logprobs-mode`、プレフィックスキャッシュ設定、重み更新モード、lm_head精度の4点が本記事の推奨値と一致しているかを確認する

事業判断 定義する RL学習パイプラインの再現性検証基準を「トレーナーとロールアウトのlogprobsパリティ」として定義し、モデルリリース条件に組み込む

実装・検証 測る V0とV1でサンプル入力に対するtoken単位logprobsの差分を測り、許容閾値を超えるケースを切り分ける

時系列タイムライン

2026年5月7日 ServiceNow AIがHugging Face Blogで「vLLM V0 to V1: Correctness Before Corrections in RL」を公開
以前 MiniMax-M1技術レポートがlm_head精度問題を独立に報告
以前 ScaleRL論文が同様の出力ヘッド精度問題を報告