AWSが、Unitree社のヒューマノイドロボット「H1」の歩行動作をシミュレーションで学習させる手順とコードを公開した。NVIDIAのロボット学習基盤「Isaac Lab」を、機械学習サービス「Amazon SageMaker AI」上で動かし、計算資源の管理を任せながら大規模に訓練する構成だ。H1は19関節を協調させ、速度指令に従って悪路を歩く動作を学習する。
計算手段は2種類提供される。常設で耐障害性の高い「SageMaker HyperPod」は、各マシンで健全性を監視し、故障時には自動で再起動・交換して、最後の保存点から手動操作なしで訓練を再開する。もう一方の「SageMaker Training Jobs」は、ジョブ完了時に資源を破棄する使い捨て型だ。両方式とも同一のDockerイメージとtorchrunで動作し、訓練コードを変えずに切り替えられる。
学習アルゴリズムはPPO(近接方策最適化)で、skrl経由でIsaac Labが対応するRL基盤を使う。クラスタの構築や故障対応という本質でない作業をAWSに任せ、開発者がロボットの動作設計に集中できる点が要点である。