8GPU1台で64Bまで学習｜SageMakerのBlackwell設定

AI TREND

AWS：Blackwell学習対応

AWSがNVIDIAの最新GPU「Blackwell」を搭載したP6-B200インスタンス（GPU8基構成）をAmazon SageMaker AIの学習ジョブで利用可能にし、1B〜64Bパラメータのモデルでバッチサイズ・系列長・精度形式・省メモリ手法をどう選ぶかの設定指針を公開した。

3 の要点を3分で

AWSがNVIDIA Blackwellを搭載したP6-B200インスタンス（GPU8基構成）をAmazon SageMaker AIの学習ジョブで利用可能にし、性能を引き出す設定方法を公開した。

Blackwellのメモリ容量はB200で180GB、B300で268GBに拡大した。これにより、これまで複数台のサーバーに分割していたモデルを8GPUの1台に集約でき、ネットワーク負荷の削減・反復速度の向上・インフラ費用の低減につながる。学習にはモデルのパラメータや勾配をGPU間で分割するPyTorch FSDPを使う。

一次ソースは1B〜64Bパラメータのモデルを対象に、バッチサイズ・系列長・精度形式の選び方、中間結果を再計算してメモリを節約する手法（アクティベーションチェックポインティング）の使い分けを数値付きで示す。1Bモデルの例では再計算を有効にしバッチ16で約5.1万トークン/秒と基準の約8倍を達成し、14B以上では再計算が安定学習の前提条件になる。柔軟な学習計画で計算資源を予約でき、コスト管理もしやすい。

8GPU1台で64Bまで学習｜SageMakerのBlackwell設定の本文内説明図 — 図解: Blackwell学習対 - AWSがNVIDIAの最新GPUBlackwellを搭載したP6-B200インスタンス

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

Blackwellのメモリが180GB（B300は268GB）に拡大し1台集約が可能に
1Bモデルで約5.1万トークン/秒、基準の約8倍の処理速度を記録
14B以上の大規模モデルでは中間結果の再計算が安定学習の前提に

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWS
何を: Blackwell学習対応
いつ: 2026年6月26日
どこで: SageMaker AI
なぜ: 学習の最適化
どのように: P6-B200と設定指針

背景

大規模AIモデルの学習では、GPUメモリの上限がバッチサイズを縛り、長い系列を扱うとメモリ不足になり、モデルを複数GPUに分割すると通信の負荷が増えるという制約が常につきまとってきた。従来は複数台のサーバーをまたぐ構成が必要だったモデルも存在した。Blackwellはメモリ容量の拡大（B200で180GB、B300で268GB）と新しい低精度の数値形式（FP8/MXFP8/NVFP4）への対応で、これらの制約を直接緩和する。GPU間の接続も第5世代NVLinkにより双方向で最大毎秒1.8TBの帯域を確保している。

なぜ今注目なのか

メモリに余裕ができることで、これまで複数台が必要だったモデルを8GPUの1台にまとめられ、ネットワーク負荷の削減・反復速度の向上・インフラ費用の低減につながる。本文は1B〜64Bパラメータのモデルで、いつどの設定が最適かを具体的な数値とともに示しており、自社の学習構成を見直す判断材料になる。柔軟な学習計画（Flexible Training Plan）で計算資源を予約でき、コスト管理もしやすい。

8GPU1台で何が変わったのか

AWSがP6-B200インスタンス（NVIDIA Blackwell GPUを8基搭載）をAmazon SageMaker AIの学習ジョブで使えるようにした。最大の変化はGPUあたりのメモリ容量で、B200で180GB、B300で268GBまで拡大した。

これが効くのは、大規模モデルの学習がずっとメモリ上限に縛られてきたからだ。1枚のGPUに載りきらないモデルは複数GPU・複数台のサーバーに分割するしかなく、台数をまたぐと通信の負荷が増えて反復1回あたりの待ち時間が伸びていた。メモリに余裕ができれば、これまで複数台が必要だったモデルを8GPUの1台にまとめられる。

This post shows you how to configure training jobs on Amazon SageMaker AI to get the most out of Blackwell's architecture on AWS.
出典: AWS Machine Learning Blog

引用は「Blackwellのアーキテクチャを最大限引き出すために、SageMaker AIの学習ジョブをどう設定するか」を示す、という意味だ。台数を減らせばネットワーク負荷が下がり、反復速度が上がり、インフラ費用も抑えられる。

1B〜64Bでどの設定が最適か

一次ソースは1B〜64Bパラメータのモデルを対象に、バッチサイズと系列長（一度に処理する文章の長さ）の選び方、モデルサイズに応じた精度形式の選択、そして中間結果を再計算してメモリを節約する手法（アクティベーションチェックポインティング）の使い分けを数値付きで示している。

1Bモデルの例: 中間結果の再計算を有効にしバッチ16で、約5.1万トークン/秒を記録した。これは基準値の約8倍にあたる。
14B以上の大規模モデル: 中間結果の再計算が、安定して学習を回すための前提条件になる。
学習の分散: PyTorch FSDP（モデルのパラメータや勾配をGPU間で分割する手法）を使う。

つまり小さいモデルでは再計算は速度を底上げする選択肢として、大きいモデルでは載せきるための必須条件として、役割が変わる。自社が学習するモデルのサイズに当てはめて設定を読み解くのが使い方になる。

SageMakerでP6-B200を使う学習設定のやり方

一次ソースは、設定を調整して分散学習ジョブをP6-B200上で起動するまでの実践的な枠組みを提示している。

By the end, you have a practical framework for tuning your training configuration and launching distributed training jobs on P6-B200 instances.
出典: AWS Machine Learning Blog