なぜ「数百並列」が効くのか

MobileGymはモバイルGUIエージェント研究のボトルネックだった「環境の重さ」に正面から取り組んでいる。実機やフルエミュレータを使うと1インスタンスあたり数GBのメモリと数十秒の起動時間がかかり、強化学習に必要な何万回ものロールアウトが現実的なコストに収まらなかった。

論文によれば、MobileGymは 1インスタンス約400MBメモリ・約3秒コールドスタートで、 単一サーバーが数百並列インスタンスをホストできる。状態は構造化JSONでキャプチャ・設定・fork・比較が可能で、レイヤー化された状態モデルと宣言的タスク定義によりタスク作成も大規模化できる。

a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start.

評価の再現性とSim-to-Real

もう一つの核心は 決定論的ジャッジだ。付属の MobileGym-Benchは28アプリにわたる416タスクテンプレート(test256・train160)を提供し、AnswerSheetプロトコルで自由文マッチの失敗を回避する。これにより評価判定とRL報酬を同一の仕組みから生成でき、研究間の比較可能性が上がる。

Sim-to-Realのケーススタディでは、 Qwen3-VL-4B-InstructにGRPOを適用すると256タスクテストで +12.8ポイントの改善を得て、59タスクの実機サブセットで シミュレーション訓練ゲインの95.1%が保持された。シミュレータで上げたスコアが実機でほぼそのまま残るという数値は、合成環境でのRL訓練を実装ロードマップに組み込む判断材料になる。