オープンモデルの本番運用、GPU調達なしで｜MS新基盤

ツール米国メガテック Microsoft Foundry 06/04 14:04

AI TREND

Microsoft：新GPU基盤発表

Microsoftが、オープンソースAIモデルや自社学習モデルを専用GPU上で動かせる新基盤「Foundry Managed Compute」を発表した。仮想マシンやコンテナ基盤を自前で運用せず、最先端モデルと同じエンドポイント・SDK・請求でオープンモデルを公開・運用できる。

3 の要点を3分で

Microsoftが、オープンソースモデルや自社学習モデルを専用GPU上で動かす新基盤Foundry Managed Computeを発表した。AI開発基盤Microsoft Foundryには、トークン従量課金とプロビジョンドスループットの2形態があり、今回はオープンモデル・独自モデルを専用GPUで動かす3つ目の提供形態にあたる。

利用者が決めるのはモデル・配置テンプレート・GPU種別(A100/H100/MI300X)の3つだけで、必要なGPU数が自動確保される。課金はGPU系統ごとの時間課金で、利用枠はAzure仮想マシンの枠とは別管理。1つのエンドポイントの背後で複数インスタンスに負荷を分散し、同じ前文を持つ要求を同一インスタンスへ振り分けてキャッシュ効率を高める。コンテナと実行環境の更新・脆弱性修正は稼働中の配置に裏側で適用される。

Hugging Faceとの提携で数千のオープンモデルにアクセスでき、追加学習や強化学習による調整、外部学習済み重みの持ち込みにも対応する。GPU仮想マシン調達からコンテナ基盤構築、CVE対応までの自前運用負担が、3つの選択に圧縮される。データの保管場所や挙動を自社で制御したい企業の選択肢が広がる。

オープンモデルの本番運用、GPU調達なしで｜MS新基盤の本文内説明図 — 図解: RLスキル生成 - 軌跡生成を使う強化学習基盤

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

モデル・配置テンプレート・GPU種別を選ぶだけでGPU数を自動確保
A100/H100/MI300Xを時間課金、Azure VM枠とは別管理
Hugging Faceの数千モデルにアクセス、追加学習にも対応

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Microsoft
何を: 新GPU基盤発表
いつ: 2026年6月4日
どこで: Microsoft Foundry
なぜ: 本番運用障壁解消
どのように: 3項目選択でGPU自動確保

背景

AI開発基盤Microsoft Foundryには、利用量に応じて課金する方式（トークン従量課金）と、本番向けに処理能力を確保する方式（プロビジョンドスループット）の2つの提供形態があった。今回追加されたマネージドコンピュートは、オープンモデルと独自モデルを専用GPU上で動かす3つ目の形態にあたる。従来オープンモデルを本番運用するには、GPU付き仮想マシンの調達、コンテナ基盤の構築、ネットワークや認証の配線、推論実行環境の選定と運用、脆弱性（CVE）対応までを自前で組み上げる必要があった。Hugging Faceとの提携により数千のオープンモデルにアクセスでき、教師ありの追加学習や強化学習による調整、外部で学習した重みの持ち込みにも対応する。

なぜ今注目なのか

オープンモデルの性能が、推論・コーディング・指示追従の指標で最先端モデルに匹敵するまで成熟し、特定タスクに絞った小型モデルが低コスト・低遅延で高品質を出すようになった。一方で本番運用の構築負担が大きいことが普及の障壁だった。マネージドコンピュートは、モデル・配置テンプレート・GPU種別（A100/H100/MI300X）を選ぶだけで適切な数のGPUを自動確保し、コンテナや実行環境の更新も稼働中に裏側で適用する。運用権限・閉域ネットワーク・コスト管理・監視を1つの設定で統一でき、データの保管場所や挙動を自社で制御したい企業の選択肢が広がる。

GPU調達なしでオープンモデルを本番に出す3つ目の道

Microsoftが、オープンソースモデルや自社で学習させたモデルを専用GPU上で動かす新基盤「Foundry Managed Compute」を発表した。AI開発基盤Microsoft Foundryには、利用量に応じて課金するトークン従量課金と、本番向けに処理能力を確保するプロビジョンドスループットの2形態があった。今回はオープンモデルと独自モデルを専用GPU上で動かす3つ目の提供形態にあたる。

Microsoft Foundry Managed Compute is a new GPU platform-as-a-service for hosting open-source and custom AI models behind the same endpoint, SDKs, and bill as frontier models.
出典: Announcing Foundry Managed Compute

引用にある「GPU platform-as-a-service」とは、GPUの確保から推論実行環境までをサービス側が用意し、利用者は仮想マシンやコンテナ基盤を自分で運用しなくてよい仕組みのこと。最先端モデルと同じ窓口(エンドポイント)・開発キット(SDK)・請求でオープンモデルを扱える点が核になる。

選ぶのは3つだけ。何を自前で組まずに済むのか

Managed Computeで利用者が決めるのは、モデル・配置テンプレート・GPU種別の3つだけだ。この選択に応じて必要なGPU数が自動で確保される。GPU種別はA100/H100/MI300Xから選び、課金はGPU系統ごとの時間課金になる。利用枠はAzure仮想マシンの枠とは別に管理される。

従来オープンモデルを本番運用するには、GPU付き仮想マシンの調達、コンテナ基盤(Kubernetes=多数のコンテナをまとめて動かす土台)の構築、ネットワークと認証の配線、推論実行環境の選定、そしてCVE(既知の脆弱性)対応までを自前で組み上げる必要があった。Managed Computeはこの構築層を引き受ける。コンテナと実行環境の更新・脆弱性修正は、稼働中の配置に裏側で適用される。

さらに1つのエンドポイントの背後で複数のモデルインスタンスに負荷を分散する。同じ前文(システムプロンプトやツール定義、検索補助の文脈)を持つ要求を同じインスタンスへ振り分け、キャッシュ効率を高める仕組みも組み込まれている。

Hugging Face提携で数千モデル、追加学習も自社制御で

Hugging Faceとの提携により、数千のオープンモデルにアクセスできる。教師ありの追加学習(ファインチューニング)や強化学習による調整、外部で学習した重みの持ち込みにも対応する。

この背景には、オープンモデルの成熟がある。推論・コーディング・指示追従の指標で最先端モデルに匹敵する水準のオープンモデルが出てきており、特定タスクに絞った小型モデルは低コスト・低遅延で高品質を出すようになった。一方で本番運用の構築負担が大きいことが普及の障壁だった。Managed Computeは、運用権限・閉域ネットワーク(社内からしかアクセスできない閉じた通信経路)・コスト管理・監視を1つの設定で統一する。データの保管場所や挙動を自社で制御したい企業にとって、オープンモデルを本番に乗せる際の判断材料が増える。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

A100/H100/MI300Xそれぞれの時間課金単価と、Azure仮想マシン枠とは別管理されるGPU利用枠の上限を確認する。

事業を決める人へ

トークン従量課金・プロビジョンドスループット・Managed Computeの3形態で、自社の想定トラフィックでの総コストが逆転する境界を比較する。

手を動かす人へ

Hugging Faceのオープンモデルを1つ選び、配置テンプレートとGPU種別を指定してエンドポイント公開までの所要時間を試す。

時系列タイムライン

2026年6月4日 MicrosoftがFoundry Managed Computeを発表。オープンモデルと独自モデルを専用GPUで動かす3つ目の提供形態を追加
発表時点 Hugging Faceとの提携により数千のオープンモデルへのアクセスと追加学習・強化学習による調整に対応
発表以前 Microsoft Foundryはトークン従量課金とプロビジョンドスループットの2形態を提供