Bedrock Mantleのクォータ可視化｜東京リージョン対応

ツール米国メガテック東京含む12リージョン 05/28 14:05

AI TREND

AWS：TPMクォータ可視化

AWSは2026年5月28日、Amazon Bedrockのbedrock-mantleエンドポイントについて、モデル別の入力・出力トークン毎分クォータをAWS Service Quotasコンソールから確認できるようにした。東京を含む12リージョンで利用可能。

3 の要点を3分で

bedrock-mantleとは何か、なぜクォータ可視化が効くのか

bedrock-mantleはAmazon Bedrockが提供する互換エンドポイントで、OpenAI Responses API、OpenAI Chat Completions API、Anthropic Messages API の3系統を受け付ける。AWSの公式発表は次のように説明している。

The bedrock-mantle endpoint supports the OpenAI Responses API, OpenAI Chat Completions API, and the Anthropic Messages API, letting customers run existing OpenAI or Anthropic based applications on Amazon Bedrock with minimal code changes.
出典: Amazon Bedrock expands support for Service Quotas

つまり、OpenAIやAnthropicのSDKで書かれた既存アプリのエンドポイントURLと認証だけを差し替えればBedrock側で動く設計だ。ただし運用視点では「どこまでスケールできるか」が常に問題になる。これまでbedrock-mantleについてはAWS Service Quotasコンソールに上限が表示されておらず、本番投入時のTPM（tokens per minute）見積もりは推測に頼る状態だった。

今回の更新で、モデル別のinput-tokens-per-minuteとoutput-tokens-per-minute がService Quotasから直接確認できるようになった。これはbedrock-runtimeエンドポイントで既に提供されていた運用体験を、互換エンドポイント側にも揃えた形となる。

落とし穴: TPMは「モデル別」「リージョン別」に独立

運用設計で見落としやすいのは、クォータがモデル単位かつリージョン単位で独立して管理される点だ。bedrock-mantleの対応リージョンは米国東部（バージニア北部・オハイオ）、米国西部（オレゴン）、アジア太平洋（ムンバイ・東京・シドニー・ジャカルタ）、欧州（フランクフルト・アイルランド・ロンドン・ミラノ・ストックホルム）、南米（サンパウロ）の12拠点。日本のデータ所在要件を持つワークロードは東京リージョンの上限値だけを見ればよいが、グローバル分散構成を取る場合はリージョンごとに別々の増枠申請が必要になる。

またコストやROIの観点では、AWSはbedrock-mantle固有の単価を今回の発表では公開していない（公開数値なし）。OpenAIやAnthropicの直接契約と比較する場合、レート上限・データ所在・IAM統合の3軸で定性的に評価することになる。増枠申請は既存のBedrock limit increaseプロセスをそのまま使えるため、運用フローの追加学習コストは小さい。

Bedrock Mantleのクォータ可視化｜東京リージョン対応の本文内説明図 — 図解: TPMクォータ可視化 - AWSは2026年5月28日AmazonBedrockのbedrock-runtime

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

bedrock-mantleのTPM上限がService Quotas画面で可視化、本番計画が立てやすく
OpenAI Responses/Chat Completions・Anthropic Messages APIをそのまま実行可能
東京・ムンバイ・シドニーなどアジア4拠点を含む12リージョンで対応

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWS
何を: TPMクォータ可視化
いつ: 2026年5月28日
どこで: 東京含む12リージョン
なぜ: 本番スケール計画支援
どのように: Service Quotas経由

何が起きたか

AWSは2026年5月28日、Amazon Bedrockのbedrock-mantleエンドポイントについて、モデル別の入力・出力トークン毎分クォータをAWS Service Quotasコンソールから確認できるようにした。東京を含む12リージョンで利用可能。

3つの視点で読む

技術 / 事業 / 規制 — この変化があなたの判断にどう効くか。

技術への影響

bedrock-mantleはOpenAIとAnthropicの主要3API（Responses・Chat Completions・Messages）を受け付ける互換エンドポイントで、既存のOpenAI/Anthropicベースのアプリを最小限のコード変更で移行できる。これまで上限値がコンソールから見えなかったため、本番投入前のTPM見積もりは推測に頼らざるを得なかった。今回モデル別のinput-tokens-per-minute/output-tokens-per-minuteが露出したことで、bedrock-runtimeと同じ運用感でスロットリング閾値を扱える。

市場・事業への影響

OpenAI APIやAnthropic APIで構築済みのアプリケーションをAWSアカウント内で動かす選択肢の運用障壁が下がる。クォータ可視化は本番採用の前提条件であり、これが揃って初めて調達判断のテーブルに乗る。

規制・リスク

東京リージョンが対応範囲に含まれるため、データを国内に留めたい要件を持つ日本企業がOpenAI/Anthropic互換のワークロードをAWS内で稼働させる際の運用情報が国内コンソールから取得できる。

機会と脅威

この変化で機会を得るのは誰か、脅威にさらされるのは誰か。

機会 3

OpenAI/Anthropic APIで構築済みの日本企業

東京リージョンのbedrock-mantleでTPM上限が見える化され、本番スケール計画が立てやすくなる

SREや運用担当

bedrock-runtimeと同じService Quotas画面で一元管理でき、監視・増枠申請の運用フローを共通化できる

マルチクラウド戦略を取る企業

OpenAI/Anthropic直接契約とBedrock経由を、上限値という同じ尺度で比較検討できる

脅威 1

クォータ情報の代理可視化を売りにしていたサードパーティ

AWS純正画面で同等情報が取得できるようになり、差別化要素が減る

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

Service Quotasコンソールで「Bedrock Mantle」を検索し、利用予定モデルのinput/output TPMが本番想定トラフィックを満たすかを確認する。

事業を決める人へ

OpenAI/Anthropic直接契約時のレート上限とbedrock-mantleのTPMを、同一ユースケースの単価・データ所在で比較する。

手を動かす人へ

既存のOpenAI Chat Completions/Anthropic Messages呼び出しをbedrock-mantleに向け替え、スロットリング発生時のリトライ挙動とTPM消費量を測る。

時系列タイムライン

2026年5月28日 AWSがbedrock-mantleエンドポイントのService Quotas対応を発表
対応リージョン東京・バージニア北部・オハイオ・オレゴン・ムンバイ・シドニー・ジャカルタ・フランクフルト・アイルランド・ロンドン・ミラノ・ストックホルム・サンパウロの12拠点で利用可能
今後ユーザーはService Quotasコンソールで『Bedrock Mantle』を検索しTPMを確認、必要に応じて標準の増枠申請プロセスで引き上げ可能