VPO登場｜多様性訓練でテスト時探索を強化

AI TREND

VPO論文著者：新RL手法VPO公開

arXivで公開された論文「Vector Policy Optimization (VPO)」が、GRPOのアドバンテージ推定器のドロップイン代替として、ベクトル報酬を使い多様な解を出すようLLMを訓練するRL手法を提案した。テスト時探索のpass@k・best@kで既存スカラーRLと同等以上の性能を示した。

3 の要点を3分で

VPOが解こうとしている問題

LLMのpost-trainingは、事前に定めたスカラー報酬の最大化を行うのが標準だった。この設計は単一指標では強いモデルを作る一方、応答分布のエントロピーが下がりやすく、AlphaEvolveのようにロールアウトを多数引いてタスク別報酬で選別する推論時探索の枠組みでは、引いた候補が似通って探索が進まないという問題が顕在化していた。VPO（Vector Policy Optimization）は、この「訓練時に多様性を作り込まない」ことが推論時探索のボトルネックになっているという立場から設計された手法である。

設計と報告された結果

VPOの中核は、報酬を単一スカラーではなくベクトルとして扱う点にある。論文ではコード生成のテストケースごとの正誤判定や、複数の異なるユーザーペルソナ・複数の報酬モデルがベクトル報酬の具体例として挙げられている。VPOはGRPOのアドバンテージ推定器のドロップイン代替として実装されており、出力する解集合の中で個々の解がベクトル報酬空間の異なるトレードオフに特化するよう訓練される。

VPO matches or beats the strongest scalar RL baselines on test-time search (e.g. pass@k and best@k), with the gap widening as the search budget grows. For evolutionary search, VPO models unlock problems that GRPO models cannot solve at all.
出典: arXiv:2605.22817v1

4タスクでpass@kとbest@kにおいて最強のスカラーRLベースラインと同等以上、探索予算が増えるほど差が広がる、進化的探索ではGRPOが全く解けない問題をVPOが解いた、という3点が報告された結果の柱である。論文は「テスト時探索が標準化していくにつれ、多様性の最適化がpost-trainingの既定目的になり得る」と主張しており、推論計算を増やす方向に舵を切るチームにとって、訓練側の前提を見直す材料となる。

VPO登場｜多様性訓練でテスト時探索を強化の本文内説明図 — 図解: RLスキル生成 - 軌跡生成を使う強化学習基盤

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

GRPOのアドバンテージ推定器を差し替えるだけで導入可能な互換設計
4タスクのpass@k・best@kで最強スカラーRLベースラインと同等以上
探索予算が増えるほどGRPOとの性能差が拡大する設計特性

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: VPO論文著者
何を: 新RL手法VPO公開
いつ: 2026年5月22日
どこで: arXiv
なぜ: 多様性訓練のため
どのように: ベクトル報酬で訓練

何が起きたか

arXivで公開された論文「Vector Policy Optimization (VPO)」が、GRPOのアドバンテージ推定器のドロップイン代替として、ベクトル報酬を使い多様な解を出すようLLMを訓練するRL手法を提案した。テスト時探索のpass@k・best@kで既存スカラーRLと同等以上の性能を示した。

3つの視点で読む

技術 / 事業 / 規制 — この変化があなたの判断にどう効くか。

技術への影響

標準的なpost-trainingがスカラー報酬を最大化する結果、出力分布のエントロピーが低下しテスト時探索で多様性不足に陥る、という問題に対し、VPOはベクトル報酬空間で個々の解が異なるトレードオフに特化するよう訓練する。GRPO実装にアドバンテージ推定器単位で差し込めるため、既存パイプラインの改修コストが小さい。

市場・事業への影響

AlphaEvolveのような推論時探索ベースの構成が広がる中、pass@k・best@kといった「k本引いて最良を選ぶ」評価指標で性能差が探索予算とともに拡大する点は、推論計算を増やす設計を採るチームにとって投資回収の傾きを変える要素となる。コード生成のテストケース別報酬や複数ペルソナ報酬モデルなど、既に実務でベクトル化されている報酬を捨てずに活用できる。

規制・リスク

規制・著作権面の直接的な含意は薄い。社会的含意としては、報酬モデルを複数ペルソナに分けて学習に取り込む設計が、単一報酬への過剰適合を緩和する選択肢として論文上で示された点に留まる。

機会と脅威

この変化で機会を得るのは誰か、脅威にさらされるのは誰か。

機会 3

推論時探索を組み込むLLM開発チーム

pass@k・best@kで探索予算を増やすほど効く手法が、GRPOパイプラインに小改修で載るため

コード生成・自動評価系プロダクト

テストケース別正誤というベクトル報酬を訓練信号として直接利用できる

AlphaEvolve型の進化的探索を運用する研究組織

GRPOモデルが解けない問題をVPOモデルが解いた結果が論文中で報告された

脅威 2

単一スカラー報酬で固めた既存post-trainingパイプライン

低エントロピー出力に陥りやすく、探索予算を増やしても伸びにくい構造が論文で指摘された

複数ペルソナ報酬を平均化して使ってきた構成

ベクトルのまま訓練に渡す設計に比べ、個別解の特化が起きにくい

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

自社post-trainingがGRPOベースかを点検し、アドバンテージ推定器の差し替え点と報酬がベクトル化可能かを確認する。

事業を決める人へ

自社プロダクトの評価をpass@1単独からpass@k・best@kに広げる条件と、増やす探索予算の上限を定義する。

手を動かす人へ

既存GRPO学習済みモデルとVPO方針で訓練したモデルの、k=1/8/32でのpass@k差分を同一タスクで測る。

時系列タイムライン

2026年5月21日 VPO論文 (arXiv:2605.22817) がarXivで公開
2026年5月22日論文情報がニュースソースとして配信
2026年5月23日 test-time search領域の関連手法として認知が拡大

情報ソース

Vector Policy Optimization: Training for Diversity Improves Test-Time Search 一次公式技術
モデル配布: What is Huggingface? モデル配布
モデル配布: What is Spaces? モデル配布

学術の記事

読み込み中...

VPO登場｜多様性訓練でテスト時探索を強化

VPO論文著者：新RL手法VPO公開

VPOが解こうとしている問題

設計と報告された結果

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

機会と脅威

今やるべきこと

時系列タイムライン

関連動画

情報ソース

人気記事ランキング

学術の記事

VPO論文著者：新RL手法VPO公開

VPOが解こうとしている問題

設計と報告された結果

関連リンク

時系列タイムライン

SNSの反応

主な声

関連動画

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

学術の記事