小型AIをエージェント特化｜SageMakerに多段RL

AI TREND

Amazon SageMaker AI：多段階強化学習を追加

Amazon SageMaker AIが、複数ステップのエージェント型タスク向けに小型モデルを特化させる「多段階強化学習（multi-turn RL）」を追加した。タスク全体の一連の判断に報酬を与えて訓練し、訓練ループ全体をAWSがサーバーレスで管理する。

3 の要点を3分で

Amazon SageMaker AIが本日、複数ステップのエージェント型タスク向けに多段階強化学習（multi-turn RL）を追加した。従来の教師あり微調整・検証可能な報酬による強化学習（RLVR）・AIフィードバックによる強化学習（RLAIF）に続く新手法で、利用者自身のエージェント環境に対して訓練し、タスク全体で下す一連の判断に報酬を与える。これにより小型・低コストなモデルを目的業務に特化させ、大型汎用モデルの精度に並ぶ・超えることを狙える。

専用基盤の構築に数週間かかることもあったエージェント用モデルの訓練ループ（rolloutの調整・行動履歴の収集・訓練・チェックポイント管理）を、AWSがまるごと管理する。エージェントはBedrock AgentCore RuntimeのほかEKS・EC2・Fargateなど任意の基盤に接続でき、組み込みのMLflowで行動履歴・報酬・トレースを確認できる。評価ジョブは報酬・pass@k・行動履歴指標を出すため配備前にベンチマークできる。

処理トークン分のみ課金のサーバーレスで動き、基盤の準備・管理は不要。対応モデルはQwen 3.6 27B・Nova Lite 2.0・GPT-OSS-20B・Gemma 31Bなどで、SageMaker StudioとPython SDKから本日提供開始された。

小型AIをエージェント特化｜SageMakerに多段RLの本文内説明図 — 図解: RLスキル生成 - 軌跡生成を使う強化学習基盤

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

タスク全体の判断列に報酬を与え小型モデルを業務特化させる新手法
数週間かかる訓練基盤の構築をAWSが肩代わり、準備不要に
処理トークン分のみ課金のサーバーレス、初期投資なしで試せる

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Amazon SageMaker AI
何を: 多段階強化学習を追加
いつ: 2026年6月4日
どこで: SageMaker Studio
なぜ: 小型モデル特化
どのように: サーバーレス訓練

背景

SageMaker AIのモデルカスタマイズでは、これまで教師ありの微調整（supervised fine-tuning）、検証可能な報酬による強化学習（RLVR）、AIフィードバックによる強化学習（RLAIF）といった手法が提供されてきた。これらは自前の訓練基盤を構築・運用する手間なしに基盤モデルを業務に合わせられるものだった。一方、複数ステップのタスクを確実にこなすエージェント用モデルの訓練は複雑で、専用基盤の構築に数週間かかることも多かった。今回の多段階強化学習は、その訓練ループ全体をAWS側が肩代わりする位置づけである。

なぜ今注目なのか

大型の汎用モデルに頼らず、小型モデルを特定業務に特化させて精度を同等以上に引き上げられる点が、運用コスト削減の観点で意思決定に効く。訓練ループ（rolloutの調整、行動履歴の収集、訓練、チェックポイント管理）をAWSが管理し、基盤の準備が不要なため、エージェント開発のハードルが下がる。サーバーレス課金で初期投資なく試せる点も導入判断を後押しする。

「判断の連なり」に報酬を与える訓練がサーバーレスで届いた

Amazon SageMaker AIが本日、複数ステップのエージェント業務向けに多段階強化学習（multi-turn RL）を追加した。これまでのSageMaker AIのモデルカスタマイズは、教師あり微調整・検証可能な報酬による強化学習（RLVR）・AIフィードバックによる強化学習（RLAIF）を提供してきた。今回はそこに、利用者自身のエージェント環境に対してモデルを訓練し、タスク全体で下す一連の判断に報酬を与える手法が加わった。

Multi-turn RL extends this by training models against your own agent environment and rewarding the full sequence of decisions an agent makes across a task, helping you specialize smaller, lower-cost models to match or exceed the task accuracy of larger general-purpose models on your target workload.
出典: AWS What's New

引用が言うのは、自社のエージェント環境（実際に動かす作業の場）に対してモデルを鍛え、1ステップごとではなくタスク全体の判断の連なりに報酬を与えることで、小型・低コストなモデルを狙った業務に特化させ、大型汎用モデルの精度に並ぶ・超えることを目指せる、という設計だ。複数ステップを確実にこなすエージェント用モデルの訓練は複雑で、専用基盤の構築に数週間かかることも多い。その工程をAWSが肩代わりする点が、この発表の核になる。

訓練ループ全体をAWSが管理、評価はMLflowで

AWSが管理するのは、rolloutの調整（エージェントを実際に動かして経験を集める段取り）、行動履歴の収集、訓練、チェックポイント管理という訓練ループ全体だ。

SageMaker AI manages the full training loop, from rollout orchestration and trajectory collection to training and checkpoint management. Built-in MLflow tracking lets you inspect agent trajectories, rewards, and traces.
出典: AWS What's New

ここでのtrajectory（行動履歴）は、エージェントがタスクを進める中で下した判断の系列を指す。組み込みのMLflowで、その行動履歴・報酬・トレース（処理の記録）を確認できる。評価ジョブは報酬・pass@k（k回試行のうち成功が出る割合）・行動履歴の指標を出すため、SageMaker AIのエンドポイントやBedrockへ配備する前にベンチマークできる。

エージェントの接続先は柔軟だ。フルマネージドな実行環境であるBedrock AgentCore Runtimeのほか、EKS・EC2・Fargate、あるいは好みのフレームワークを使う任意の基盤に接続できる。対応モデルはus-west-2でQwen 3.6 27B・Nova Lite 2.0・GPT-OSS-20B・Gemma 31B、us-east-1でNova Lite 2.0・GPT-OSS-20Bと、リージョンで差がある。多段階強化学習は処理トークン分のみ課金のサーバーレスで動き、準備・管理する基盤はない。