何が変わったのか
Amazon SageMaker Unified Studioに、AWS Glueジョブのサブネット間リトライを支えるコネクタ自動プロビジョニング機能が追加された。管理者がドメインVPCに複数AZにまたがるプライベートサブネットを定義しておけば、新規プロジェクトに必要なコネクタがシステム側で自動作成される。プライマリサブネットがIPアドレス枯渇やAZ劣化で利用できなくなった場合、Glueジョブは別サブネット上のコネクタで自動的にリトライされる。
If a Glue job fails because the primary subnet is unavailable due to IP address exhaustion or availability zone degradation, the job can be retried on a connector in a different subnet.
運用現場へのインパクト
これまでGlueジョブのサブネット冗長化は、エンジニアがバックアップコネクタを個別に構成し、障害発生時に手動でジョブを切り戻す運用が一般的だった。特にIP枯渇は静かに進行し、夜間バッチで顕在化するケースが多く、SLA違反の温床となっていた。今回の自動化により、初期のVPC設計さえ正しく行えば追加の運用作業なしで冗長化が効く。実装着手時の落とし穴としては、(1) サブネットごとのIPレンジ設計が小さいと結局両系統で枯渇する、(2) AZ間でセキュリティグループやNAT Gateway構成が非対称だとリトライ先で別の失敗を招く、という点が挙げられる。コスト面の公開数値はないが、サブネット追加自体に課金は発生しないため、追加投資は実質的に設計工数のみとなる。提供範囲はSageMaker Unified Studioが利用可能な全AWSリージョンで、日本リージョンの既存ユーザーも初期VPC設定の見直しだけで恩恵を受けられる。