長時間AIエージェントを5倍速・3割安に｜SageMaker新提供

AI TREND

AWSとNVIDIA：推論モデルを当日提供

AWSがNVIDIAの推論特化型大規模モデル「Nemotron 3 Ultra」を、機械学習基盤サービスSageMaker JumpStartで公開当日から配備可能にしたと発表した。自律エージェント用途で推論を最大5倍速く、コストを最大30%削減できるとしている。

3 の要点を3分で

AWSは、NVIDIAの推論特化型大規模モデルNemotron 3 Ultraを、機械学習基盤サービスSageMaker JumpStart上で公開当日から利用可能にしたと発表した。ワンクリックで配備でき、自律エージェント用途で推論を最大5倍速、コストを最大30%削減できるとしている。

モデルは総パラメータ5500億のうち1回の処理で動かすのを550億に絞る混合エキスパート方式(MoE)を採り、最大100万トークンの長文脈を扱う。NVFP4という低精度形式に最適化され、長時間のエージェント処理で速度とコストの両面が効く設計になっている。

配備自体は容易だが、動かす土台はml.p5en.48xlargeなどのGPU専用インスタンスで、稼働中は時間あたりの費用が発生する。試した後に接続点(エンドポイント)を削除し忘れると課金が続くため、コスト管理が運用の前提となる。

長時間AIエージェントを5倍速・3割安に｜SageMaker新提供の本文内説明図 — 図解: AIエージェント - AWSがNVIDIAの推論特化型大規模モデルNemotron3Ultra

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

総5500億パラメータでも1回の処理は550億分だけ動かすMoE方式
最大100万トークンの長文脈を保ったまま処理する設計
自律エージェント用途で推論最大5倍速・コスト最大30%削減を主張

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWSとNVIDIA
何を: 推論モデルを当日提供
いつ: 2026年6月5日
どこで: SageMaker
なぜ: エージェント効率化
どのように: ワンクリック配備

背景

AIエージェントは一度回答して終わりではなく、計画を立て、外部ツールを呼び出し、結果を確認しながら数百回のやり取りを続ける。各ステップで処理量と費用が積み上がるため、エージェント向けには専用設計のモデルが求められてきた。Nemotron 3 Ultraは総パラメータ5500億のうち、1回の処理で実際に動かすのは550億分だけに絞る方式（混合エキスパート方式、MoE）を採り、最大100万トークンの長い文脈でも処理速度を保てる構造になっている。さらに「Transformer」と「Mamba」を組み合わせた設計で、同等品質の従来型モデルより少ない計算資源で動かせるとしている。

なぜ今注目なのか

長く動き続けるエージェントを実運用する企業にとって、タスク完了までの時間と1件あたりのコストが最大の関心事である。今回はモデル公開と同時にAWSの基盤上で配備でき、独自にインフラやサーバー設定を組む必要がない点が導入のハードルを下げる。一方でGPU専用インスタンス（例: ml.p5en.48xlarge）は稼働中1時間あたり数ドル規模の費用が発生し、使い終えたら接続点（エンドポイント）を削除する必要があるため、コスト管理が前提となる。

Nemotron 3 UltraがSageMakerで当日配備可能に

NVIDIAの推論特化型モデル「Nemotron 3 Ultra」が、AWSの機械学習基盤サービスSageMaker JumpStartで公開当日から配備可能になった。AWSは自律エージェント用途で推論を最大5倍速、コストを最大30%削減できるとしている。

Deploy NVIDIA Nemotron 3 Ultra on Amazon SageMaker JumpStart. Get 5x faster inference and 30% lower cost for agentic AI workloads with this frontier reasoning model.
出典: NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart

引用にある「agentic AI workloads」とは、AIが自分で計画を立て外部ツールを呼び出しながら数百回のやり取りを続ける自律エージェント用途を指す。一度回答して終わるのではなく回し続けるため、各ステップで処理量と費用が積み上がる。そこに対して当日から配備できる点が今回の発表の核となる。

5500億パラメータでも550億しか動かさない仕組み

本モデルは総パラメータ5500億のうち、1回の処理で実際に動かすのは550億分だけに絞る。これは複数の専門家(エキスパート)を持ち、入力ごとに必要な一部だけを呼び出す混合エキスパート方式(MoE)と呼ばれる構造による。大きな総容量を持ちながら1回あたりの計算量を抑えられる。

扱える文脈は最大100万トークンで、入出力はテキスト。長い対話やドキュメントを保ったまま処理できる。さらにNVFP4という低精度の数値形式(計算を粗い精度で行い速度とメモリ効率を上げる形式)に最適化されており、長時間のエージェント処理で速度とコストの両面が効く設計になっている。

この「総容量は大きいが1回の計算は軽い」という設計が、最大5倍速・最大30%安という主張の土台になっている。

ワンクリック配備の裏にあるコスト管理の前提

配備自体はSageMaker StudioまたはPython SDKからワンクリックで行え、独自にインフラやサーバー設定を組む必要がない。これは導入のハードルを大きく下げる。

ただし動かす土台はGPU専用インスタンスで、対応するのはml.p5en.48xlarge、ml.p5.48xlarge、ml.g7e.48xlargeの3種。これらは稼働している間ずっと時間あたりの費用が発生する。試した後に接続点(エンドポイント=モデルへのアクセス窓口)を削除し忘れると、使っていなくても課金が続く点に注意が要る。

国内のチームが試す際は、まず1つの定型タスクで配備し、稼働時間あたりの費用と削除手順を確認してから本番運用に広げるのが現実的だ。「5倍速・30%安」は処理側の指標であり、運用全体のコストはエンドポイントの管理次第で変わる。

AWS上でモデル選択肢が広がる中での位置づけ

同時期にAWSではOpenAIの最前線モデルとCodexがBedrockで一般提供を開始しており、AWS上で使える大規模モデルの選択肢が増えている。今回のNemotron 3 Ultraは、その流れの中でNVIDIA系の推論特化モデルをSageMaker JumpStart経由で当日から使えるようにしたものだ。

長時間稼働のエージェントを運用する企業は、タスク完了までの時間と1件あたりのコストが直接効くため最大の恩恵を受ける。AWSを既に使う実装チームは、サーバー設定を自前で組まずに試せる。一方、コスト管理体制が未整備の小規模チームは、GPU専用インスタンスの時間課金とエンドポイント削除の運用負荷が新たな前提になる。

どのモデルを選ぶかは、自社のタスクで実際に速度とコストを測ってから判断するのが妥当だ。