Tsallis損失連続体で推論モデルのコールドスタート問題を解消、GRPO失敗時にも学習成立

本研究は、検証可能報酬による強化学習（RLVR）で推論モデルをポストトレーニングする際、初期成功確率p_0が小さいと学習が停滞する「コールドスタート問題」を、Tsallis q-対数という単一の数学的道具で解決する枠組みを提示した。

損失族J_Qは、q=0で従来のRLVR（搾取極）、q=1で潜在軌跡の対数周辺尤度（密度推定極）に対応し、その間を連続的に補間する。重要なのは、全メンバーが同じ勾配方向を共有し、差はスカラー増幅P_θ^(-q)のみという点である。この増幅が学習率とは独立に各事例を再重み付けすることで、コールドスタート脱出時間が搾取極のΩ(1/p_0)から密度推定極のΘ(log(1/p_0))へと指数的に短縮される。

実装側では、P_θが扱いづらいため2つのモンテカルロ推定器が導出されている。GARL（Gradient-Amplified RL）は事前分布からサンプリングしRL勾配を増幅する方式で分散が低い。PAFT（Posterior-Attenuated Fine-Tuning）は事後分布から重要度リサンプリングしSFTを走らせる方式で、意味的に一貫した勾配を持つ。両者ともバイアスはO(q/(M・P_θ^(q+1)))に抑えられる。

実験はFinQA、HotPotQA、MuSiQueの3タスクで実施され、q=0.75のGARLがGRPOが完全失敗するコールドスタート条件で学習進行に成功した。warm startでは、訓練が安定するFinQAで低qのGARLが優位、HotPotQAとMuSiQueではGARLが不安定化する一方でq=0.75のPAFTが安定した勾配を提供し、HotPotQAで最良のmaj@16=47.9（GRPO比+14.4）を記録している。

Tsallis損失連続体で推論モデルのコールドスタート問題を解消、GRPO失敗時にも学習成立の本文内説明図 — 図解: 損失連続体の仕組み - q値ひとつでRLVRと密度推定の間を補間し、コールドスタートを脱出する

押さえるポイント

GRPOが完全失敗する3タスクでq=0.75のGARLが学習進行に成功した
HotPotQAでPAFT（q=0.75）がmaj@16=47.9、GRPO比+14.4を記録した
脱出時間はq=0でΩ(1/p_0)、q=1でΘ(log(1/p_0))と理論証明された

5W1Hでサクッと理解 誰が arXiv著者 
 何を Tsallis損失連続体提案 
 いつ 2026年4月29日 
 どこで arXiv 
 なぜ コールドスタート解消 
 どのように q-対数損失族J_Q 

何が起きたか

要点arXivで公開された新研究が、Tsallis q-対数に基づく損失族J_Qによって、RLVR（q=0）と潜在軌跡の対数周辺尤度（q=1）を連続的に補間する統一フレームワークを提示した。初期成功確率p_0が小さい推論タスクで従来のGRPOが完全停滞する問題を、q値ひとつで脱出速度とノイズ記憶のトレードオフを制御して解く。

3つの視点で読む

開発現場

勾配方向は全q値で共通で、スカラー増幅P_θ^(-q)が各事例を学習率と独立に再重み付けする構造が明らかになった。これにより、既存のRLVR実装に対してサンプル重み付けの変更のみで導入できる実装経路が確立している。バイアスはO(q/(M・P_θ^(q+1)))に抑えられ、推定器の選択肢が2通り（GARL/PAFT）提示されている。

事業判断

低成功率・低リソースのドメイン特化推論タスク（金融QA、マルチホップQA）でGRPOが完全に学習しないケースがFinQA・HotPotQA・MuSiQueの実測で示されており、o1系ポストトレーニングの適用範囲を制約していた境界が、q=0.75運用によって実測で動いた。

リスク・ルール

直接の規制含意は薄い。社会的含意としては、検証可能報酬だけで低成功率タスクを学習させる運用が、従来より少ないラベル密度で成立する経路が示された点に限られる。

追い風と向かい風

追い風を受ける側

低成功率タスクに推論モデルを適用する研究者・エンジニアGRPOが学習停止する領域で学習を進行させる具体的手順（GARL/PAFTとq値）が提示されたため
金融QA・マルチホップQA領域のプロダクト開発者FinQA・HotPotQA・MuSiQueでコールドスタート脱出とwarm start性能の両方で改善が実測されたため
SFTとRLを連続体として扱いたい理論研究者q値によりRLVRと対数周辺尤度を単一損失族として記述する枠組みが提供されたため

向かい風を受ける側