生成AI推論の不調を標準機能で診断｜SageMaker新指標

AI TREND

Amazon SageMaker AI：詳細監視指標を提供

Amazon SageMaker AIが生成AI推論エンドポイント向けに、GPU状態やトークン単位の応答時間など100種類以上の詳細監視指標と、CloudWatch上の専用ダッシュボード「SageMaker Insights」を提供開始した。

3 の要点を3分で

Amazon SageMaker AIが、生成AI推論エンドポイント向けに100種類以上の詳細な監視指標を発信できるようになった。GPUの状態、トークン単位の応答時間、キャッシュ負荷、複数の地域にまたがるトラフィック分散などが対象で、CloudWatch上の専用ダッシュボード「SageMaker Insights」に集約される。ダッシュボードは性能・容量・信頼性の3つの観点で表示され、複数モデルを共有GPU上で動かす構成にも対応する。

背景には、LLM運用で推論段階が運用負荷の中心になり、従来の呼び出し回数や遅延の集計指標だけでは、数十モデルと数百GPUを抱える本番運用に粒度が足りなかった事情がある。これまで詳細な可視化には独自のGrafanaやPrometheusの構築が必要だった。

今回の指標はオープン標準のOpenTelemetry形式でCloudWatchに送られ、PromQL互換クエリで外部ツールに連携できる。新規エンドポイントは詳細監視が既定で有効、既存環境は設定追加で対応する。トークン単位の指標取得にはvLLMまたはSGLangが必要となる。

生成AI推論の不調を標準機能で診断｜SageMaker新指標の本文内説明図 — 図解: 詳細監視指標を提供 - 主要論点を一目で整理

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

GPU状態・トークン単位応答・キャッシュ負荷など100超の指標を発信
新規エンドポイントは詳細監視が標準で有効、既存環境は設定追加で対応
OpenTelemetry形式でGrafanaやDatadogなど既存ツールに連携可能

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Amazon SageMaker AI
何を: 詳細監視指標を提供
いつ: 2026年6月19日
どこで: AWS CloudWatch
なぜ: 推論運用の診断強化
どのように: 100超の指標と専用ダッシュボード

背景

大規模言語モデル（LLM）の運用では、学習よりも推論（実際にモデルを動かして応答を返す処理）の段階が運用負荷の中心になりつつある。応答遅延が急増した際、原因がGPUのメモリ不足なのか、トラフィックの偏りなのか、自動スケーリングの不発なのかを数分で切り分ける必要がある。従来SageMakerが出していた呼び出し回数や遅延などの集計指標だけでは、数十のモデルと数百のGPUを抱える本番運用には粒度が足りなかった。これまで詳細な可視化には独自のGrafanaやPrometheusの構築が必要だった。

なぜ今注目なのか

生成AIの本番運用が広がるなか、運用チームが追加の監視基盤を組まずに標準機能で深い診断ができる点が大きい。新規エンドポイントでは詳細監視が標準で有効になり、既存環境も設定変更だけで利用できるため、導入の手間が小さい。GrafanaやDatadogなど既存の監視ツールにも連携できる仕組みも提供される。

100超の指標で推論の不調を切り分ける

Amazon SageMaker AIが、生成AI推論エンドポイント向けに100種類以上の詳細な監視指標を発信できるようになった。GPUの状態、トークン単位の応答時間、キャッシュの負荷状況、複数の地域にまたがるトラフィックの分散などが対象になる。これらはCloudWatch（AWSの監視サービス）上の専用ダッシュボード「SageMaker Insights」に集約される。

対象となるのは生成AIワークロードで使われる2種類のエンドポイント構成だ。1つのモデルを動かす構成と、複数モデルを共有GPU上で動かす構成（推論コンポーネント型）の両方に対応する。

This post focuses on the two most relevant to generative AI workloads with detailed observability: Single-model endpoints (SME) and Inference component (IC) endpoints.
出典: AWS Machine Learning Blog

引用にある「Single-model endpoints」は1モデル専用の構成、「Inference component endpoints」は1つのGPU上で複数モデルを同居させる構成を指す。ダッシュボードは性能・容量・信頼性の3つの観点で整理して表示される。

なぜ集計指標だけでは足りなかったのか

大規模言語モデルの運用では、学習よりも推論（実際にモデルを動かして応答を返す処理）の段階が運用負荷の中心になりつつある。応答遅延が急増したとき、原因がGPUのメモリ不足なのか、トラフィックの偏りなのか、自動スケーリングの不発なのかを数分で切り分ける必要がある。

従来SageMakerが出していた呼び出し回数や遅延などの集計指標だけでは、数十のモデルと数百のGPUを抱える本番運用には粒度が足りなかった。これまで詳細な可視化には独自のGrafanaやPrometheusの構築が必要だった。

今回のGPU状態やトークン単位の応答時間を含む100超の指標により、どの層で詰まっているかを専用ダッシュボード上で追える。ただしトークン単位の指標を得るには、vLLMまたはSGLangという推論フレームワークが前提になる点は押さえておきたい。

既存の監視ツールにそのままつなぐ

今回の指標は独自形式ではなく、オープン標準のOpenTelemetry（システムの計測データを標準化する仕組み）形式でCloudWatchに送られる。さらにPromQL互換のクエリ（Prometheusで使われる問い合わせ言語）に対応するため、GrafanaやDatadogといった既存の監視ツールから同じクエリで参照できる。