Amazon SageMaker AIが本日、複数ステップのエージェント型タスク向けに多段階強化学習(multi-turn RL)を追加した。従来の教師あり微調整・検証可能な報酬による強化学習(RLVR)・AIフィードバックによる強化学習(RLAIF)に続く新手法で、利用者自身のエージェント環境に対して訓練し、タスク全体で下す一連の判断に報酬を与える。これにより小型・低コストなモデルを目的業務に特化させ、大型汎用モデルの精度に並ぶ・超えることを狙える。
専用基盤の構築に数週間かかることもあったエージェント用モデルの訓練ループ(rolloutの調整・行動履歴の収集・訓練・チェックポイント管理)を、AWSがまるごと管理する。エージェントはBedrock AgentCore RuntimeのほかEKS・EC2・Fargateなど任意の基盤に接続でき、組み込みのMLflowで行動履歴・報酬・トレースを確認できる。評価ジョブは報酬・pass@k・行動履歴指標を出すため配備前にベンチマークできる。
処理トークン分のみ課金のサーバーレスで動き、基盤の準備・管理は不要。対応モデルはQwen 3.6 27B・Nova Lite 2.0・GPT-OSS-20B・Gemma 31Bなどで、SageMaker StudioとPython SDKから本日提供開始された。
OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bedrock with OpenAI through the security, compliance, and governance workflows they already use. This is also the beginning of a broader expansion of OpenAI…