AWSがNVIDIA Blackwellを搭載したP6-B200インスタンス(GPU8基構成)をAmazon SageMaker AIの学習ジョブで利用可能にし、性能を引き出す設定方法を公開した。

Blackwellのメモリ容量はB200で180GB、B300で268GBに拡大した。これにより、これまで複数台のサーバーに分割していたモデルを8GPUの1台に集約でき、ネットワーク負荷の削減・反復速度の向上・インフラ費用の低減につながる。学習にはモデルのパラメータや勾配をGPU間で分割するPyTorch FSDPを使う。

一次ソースは1B〜64Bパラメータのモデルを対象に、バッチサイズ・系列長・精度形式の選び方、中間結果を再計算してメモリを節約する手法(アクティベーションチェックポインティング)の使い分けを数値付きで示す。1Bモデルの例では再計算を有効にしバッチ16で約5.1万トークン/秒と基準の約8倍を達成し、14B以上では再計算が安定学習の前提条件になる。柔軟な学習計画で計算資源を予約でき、コスト管理もしやすい。