Amazon SageMaker HyperPodは、大規模AI/ML分散学習向けの専用インフラで、Slurmをジョブスケジューラとして利用するクラスターを構築できる。従来、クラスター作成時にはライフサイクルスクリプト(Pythonやシェル)をS3にアップロードし、各ノードのプロビジョニング時に実行してDockerやEnroot、Pyxis、Slurm accountingなどをセットアップする必要があった。このスクリプト管理は動作検証と保守の両面で運用負荷が高く、HyperPod導入時のハードルになっていた。
今回のAMIベース構成では、本番環境で求められる主要なソフトウェア(Docker、Enroot、Pyxis)と設定(Slurm accounting、SSHキー生成、Slurmログローテーション、ユーザーホームディレクトリ)があらかじめAMIに組み込まれる。CreateCluster APIでインスタンスグループ設定からLifeCycleConfigブロックを省略するか、SageMaker AIコンソールで「Lifecycle scripts」を「None」に設定するだけで有効化でき、S3への配置作業そのものが不要になる。
追加の要件——ユーザー設定、オブザーバビリティ、LDAP統合など——はExtension script(拡張スクリプト)で対応する。APIではLifeCycleConfigブロック内に新パラメータOnInitCompleteとSourceS3Uriを指定し、コンソールではCustom setupの「Extension script file in S3」欄にS3 URIを入力する。ベースライン部分をAMIに任せ、差分だけをスクリプト化する分離設計である。
高度な要件で完全な制御が必要な場合には、従来型のカスタムライフサイクルスクリプトもAPI・コンソールの両方で継続サポートされる。本機能はSageMaker HyperPodが提供される全AWSリージョンで利用可能で、既存ユーザーはクラスター作成時の設定を変えるだけで移行できる。