AWSが公式ブログで、短期的なGPU需要に対応する2つの予約手段、EC2 Capacity Blocks for MLとSageMaker training plansの使い分けを整理した。対象となるのは負荷テスト、モデル検証、時限ワークショップ、そしてリリース前の推論容量準備といった、数日から数カ月単位でピーク的にGPUを使うワークロードだ。
EC2 Capacity Blocks for MLは、オンデマンド比40〜50%割引で1〜182日間の予約が可能で、最大8週間前から容量を押さえられる。1ブロックあたり最大64インスタンス、AWS Organizations内で複数アカウントにまたがり最大256インスタンスまで構成できるため、大規模な分散学習や一時的な大型ジョブにも対応する。p5.48xlargeの単価は米国東部バージニア北部で34.608ドル/時、オンデマンドの55.04ドル/時と比べて時間あたり約20ドル安い。
一方SageMaker training plansはオンデマンド比70〜75%割引で、ml.p4dnなどSageMakerが管理するインスタンスに対応する。学習ジョブのキューイングやチェックポイントをマネージドで回したいチームにとって、価格優位性はさらに大きい。
重要なのは、Capacity BlocksとSageMaker training plansが互換性を持たない点だ。EC2を直接管理するか、SageMakerのマネージド環境に載せるかで最初に運用スタイルを決める必要がある。短期需要のたびにオンデマンドで奪い合う運用から、予約ベースの計画的な調達へ移行する判断が、価格と容量確保の両面から具体化した。