ロボット強化学習をAWSで大規模化｜Isaac Lab×SageMaker

𝕏 詳細分析実装・ノウハウ米国メガテック AWS技術ブログ 06/10 06:06

AI TREND

AWS：ロボット学習手順公開

AWSが、Unitree社のヒューマノイド「H1」の歩行動作をNVIDIA Isaac Labでシミュレーション学習させる手順とコードを、Amazon SageMaker AIの2つの計算手段（HyperPodとTraining Jobs）向けに公開した。

3 の要点を3分で

AWSが、Unitree社のヒューマノイドロボット「H1」の歩行動作をシミュレーションで学習させる手順とコードを公開した。NVIDIAのロボット学習基盤「Isaac Lab」を、機械学習サービス「Amazon SageMaker AI」上で動かし、計算資源の管理を任せながら大規模に訓練する構成だ。H1は19関節を協調させ、速度指令に従って悪路を歩く動作を学習する。

計算手段は2種類提供される。常設で耐障害性の高い「SageMaker HyperPod」は、各マシンで健全性を監視し、故障時には自動で再起動・交換して、最後の保存点から手動操作なしで訓練を再開する。もう一方の「SageMaker Training Jobs」は、ジョブ完了時に資源を破棄する使い捨て型だ。両方式とも同一のDockerイメージとtorchrunで動作し、訓練コードを変えずに切り替えられる。

学習アルゴリズムはPPO（近接方策最適化）で、skrl経由でIsaac Labが対応するRL基盤を使う。クラスタの構築や故障対応という本質でない作業をAWSに任せ、開発者がロボットの動作設計に集中できる点が要点である。

ロボット強化学習をAWSで大規模化｜Isaac Lab×SageMakerの本文内説明図 — 図解: RLスキル生成 - 軌跡生成を使う強化学習基盤

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

Unitree H1の19関節を協調させ悪路歩行を学習させる構成を公開
故障時に自動再開する常設クラスタと使い捨て計算を使い分け可能
同一Dockerイメージとtorchrunで訓練コードを変えず両方式に対応

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWS
何を: ロボット学習手順公開
いつ: 2026年6月10日
どこで: AWS技術ブログ
なぜ: 運用負担を軽減
どのように: Isaac Lab×SageMaker

背景

物理世界で動くAI（フィジカルAI）が研究から実用段階へ移りつつある。実機での訓練は遅く高価で危険を伴うため、GPUを使った高精度シミュレーション内で先に学習させる手法が広がっている。だが、悪路での歩行のような複雑な動作を試行錯誤で覚えさせる学習（強化学習）は計算負荷が極めて高く、1台のマシンでも数時間〜数日かかる。ロボット開発チームは、短い実験の高速反復と、本番品質の長時間訓練の両方を、計算クラスタの運用負担なしでこなす必要に迫られていた。

なぜ今注目なのか

クラスタの構築や故障対応といった「本質ではない作業」をAWSに任せることで、開発者がロボットの動作設計そのものに集中できる点が要点だ。長時間・複数マシンにまたがる訓練で故障が起きても、健全性監視と自動再開で最後の保存点から復帰でき、進捗の損失を抑えられる。同じ訓練コードのまま、反復実験向けの使い捨て計算と本番向けの常設クラスタを使い分けられるため、フィジカルAI開発の現実的な選択肢になる。

Unitree H1の歩行をクラウドで学習させる構成

AWSが公開したのは、Unitree社のヒューマノイドロボット「H1」の歩行動作をシミュレーション内で学習させる手順とコードだ。19関節を協調させ、速度指令に従って悪路を歩く動作を、NVIDIAのロボット学習基盤「Isaac Lab」上で訓練する。

In this post, we show how to train robot policies for the Unitree H1 humanoid with NVIDIA Isaac Lab on Amazon SageMaker AI across two compute options: Amazon SageMaker HyperPod and Amazon SageMaker Training Jobs.
出典: AWS Machine Learning Blog

引用にある通り、AWSはこの訓練をAmazon SageMaker AI上の2つの計算手段で動かす方法を示している。学習アルゴリズムは試行錯誤で動作を覚えさせる強化学習の代表的手法であるPPO（近接方策最適化）で、強化学習ライブラリのskrl経由でIsaac Labが対応するRL基盤を使う。実機での訓練は遅く高価で危険を伴うため、GPUを使った高精度シミュレーション内で先に学習させる流れに沿った構成だ。

故障で進捗を失わない仕組み

悪路歩行のような複雑な動作を覚えさせる強化学習は計算負荷が極めて高く、複数マシンにまたがって長時間動かす。問題は、その途中で1台でも故障すると全体の進捗が失われることだ。

AWSはこれに2つの計算手段で答える。常設で耐障害性の高い「SageMaker HyperPod」は、各マシンで健全性を監視し、故障時には自動で再起動・交換して、最後の保存点から手動操作なしで訓練を再開する。もう一方の「SageMaker Training Jobs」は、ジョブが完了すると計算資源を破棄する使い捨て型で、短い実験を高速に回す用途に向く。

重要なのは、両方式とも同一のDockerイメージと分散実行コマンドのtorchrunで動く点だ。訓練コードを変えずに、反復実験向けの使い捨て計算と本番品質の長時間訓練を往復できる。クラスタの構築や故障対応という本質でない作業をAWSに任せ、開発者がロボットの動作設計そのものに集中できる、というのがこの構成の狙いだ。