AIエージェントを本番運用へ｜Foundry 5月更新

ツール米国メガテック Microsoft Foundry 06/01 17:06

AI TREND

Microsoft：Foundry5月更新公開

Microsoftが企業向けAI開発基盤「Microsoft Foundry」の2026年5月更新を公開し、本番ログを直接採点する評価機能、Grok 4.3やDeepSeek V4の追加、ネットワーク分離の正式提供など、運用・統制系の機能を多数拡充した。

3 の要点を3分で

Microsoftは2026年5月31日、企業向けAI開発基盤「Microsoft Foundry」の5月更新を公開した。中心は、本番のやり取り記録(トレース)を直接採点する評価機能だ。Foundry以外の他社クラウドや別基盤で動くエージェントも採点対象になり、評価セットを手作りせずに品質測定へ着手できる。

モデルカタログにはGrok 4.3とDeepSeek V4が追加された。Grok 4.3は前世代の上位互換だが、安全性・脱獄リスクが他モデルより高い点が注意喚起されている。Fireworks経由でDeepSeek V4 ProとKimi 2.6も使え、GPT-5の強化微調整は品質保証・法令順守に対応した限定提供版(gated GA)へ昇格した。

運用面ではMicrosoft管理のネットワーク分離(Managed VNET)が正式提供になり、プロジェクト単位のコスト把握も加わった。ローカル実行環境Foundry Localは1.1/1.2でライブ音声書き起こし、Qwen 3.5 Vision、多言語音声認識に対応。試作から本番運用へ移す際の評価・分離・コスト把握・ローカル処理がまとめて整った。

AIエージェントを本番運用へ｜Foundry 5月更新の本文内説明図 — 図解: AIエージェント - Microsoftが企業向けAI開発基盤MicrosoftF

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

本番のやり取り記録をそのまま採点、他社クラウドのエージェントも対象
Grok 4.3が追加だが安全性・脱獄リスクの注意喚起付き
DeepSeek V4とKimi 2.6がFireworks経由で利用可能に

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Microsoft
何を: Foundry5月更新公開
いつ: 2026年5月31日
どこで: Microsoft Foundry
なぜ: 本番運用機能の強化
どのように: 評価・分離機能追加

背景

Microsoft Foundryは、複数ベンダーのAIモデルを選んで業務エージェント（自律的にタスクを実行するAI）を作り、本番運用するための統合基盤である。これまでも月次で機能追加を続けており、3月にはGrok 4.2が正式提供されていた。今回はモデルの選択肢拡大に加え、本番のやり取りの記録（トレース）をそのまま評価対象にできる仕組みや、コストの可視化、ネットワーク分離など、企業が安心して使うための土台が強化された。GPT-5の追加学習機能（強化微調整）も、契約上の品質保証や法令順守に対応した限定提供版へ昇格した。

なぜ今注目なのか

AIエージェントを「試作」から「本番運用」へ移す段階で必要になる、評価・コスト管理・安全性・隔離といった運用機能がまとめて整った点が重要である。特に手作業で評価用データを作らず本番ログを直接採点できる機能は、外部や他社クラウド上のエージェントにも使えるため、運用品質を測る手間を大きく減らす。複数モデルを比較しながら自社用途に合うものを選ぶ企業にとって、選択肢と統制の両面が同時に広がった意味は大きい。

本番ログをそのまま採点、評価セット作りが要らなくなる

2026年5月31日公開の更新で目を引くのは、本番のやり取り記録(トレース=エージェントが実際に処理した一連のログ)を直接採点できる評価機能だ。これまで品質測定には評価用のデータセットを手作りする工数がかかっていたが、その前段が省ける。

May ships trace-based evaluation for any agent on any cloud
出典: What's new in Microsoft Foundry | May 2026

引用の「any agent on any cloud」とは、Foundryで作ったエージェントだけでなく、他社クラウドや別の開発基盤で動くエージェントも採点対象にできるという意味だ。つまり、すでに本番で動いているエージェントの品質を、新たに評価データを用意せずに測りに行ける。試作段階の「動くかどうか」から、本番運用の「どれくらいの品質で動いているか」へ関心が移る企業にとって、この差は工数で効いてくる。

モデル一覧が広がる一方、Grok 4.3には安全性の注意書きが付く

今回のカタログ追加で、xAIのGrok 4.3が並んだ。3月のGrok 4.2からの直接の上位互換とされる一方で、安全性・脱獄(本来禁止された応答を引き出す攻撃)のリスクが他モデルより高い点が注意喚起されている。性能が上がったから無条件で置き換える、という判断はしにくい。

モデルの選択肢自体は厚くなった。DeepSeek V4系がカタログに加わり、Fireworks経由でDeepSeek V4 ProとKimi 2.6も使える。GPT-5の強化微調整(追加学習で挙動を自社向けに寄せる仕組み)は、品質保証や法令順守に対応した限定提供版(gated GA=申請して条件を満たした利用者だけが使える正式提供)へ昇格した。

Grok 4.3 and DeepSeek V4 in the model catalog, GPT-5 Reinforcement Fine-Tuning at gated GA
出典: What's new in Microsoft Foundry | May 2026

ここでの「gated GA」は、誰でも自由に使える一般提供ではなく、品質保証・法令順守の枠組みに乗った条件付きの正式提供を指す。性能の上限が上がっても、安全性と利用条件をセットで見ないと運用に乗せられない構図が、この更新で明示された。

ネットワーク分離とコスト把握で、運用統制の土台がそろう

運用面では、Microsoftが管理するネットワーク分離(Managed VNET=エージェントの通信を社外から隔離する仕組み)が正式提供になった。あわせてプロジェクト単位のコスト把握機能が加わり、どのプロジェクト・どのエージェントが費用を食っているかを切り分けて見られる。

Managed VNET at GA, project-level cost attribution
出典: What's new in Microsoft Foundry | May 2026

手元の環境で動かす選択肢も広がった。ローカル実行環境のFoundry Localが1.1と1.2に上がり、ライブ音声書き起こし、Qwen 3.5 Vision(画像を扱えるモデル)、多言語音声認識に対応した。クラウドに送らず手元で処理したい音声・画像の用途で、試せる範囲が増えた。評価・分離・コスト把握・ローカル処理がまとめて整ったことで、試作から本番運用へ移すときに後回しになりがちな統制側の機能が一度に手に入る。

誰が手間を減らし、誰が判断を迫られるか

本番運用中のエージェントを抱える実装チームは、評価セットを手作りせずに品質測定へ着手できる。他社クラウド上の資産も同じ採点に乗るため、Foundry外で動かしているエージェントも同じ物差しで測れる。

複数モデルを比較して採用したい企業は、Grok 4.3・DeepSeek V4 Pro・Kimi 2.6が同一カタログに並び、プロジェクト単位のコスト把握も付いたため、性能と費用を同じ基盤で並べて判断できる。

一方、性能だけでモデルを選ぶ運用方針は見直しを迫られる。Grok 4.3は安全性・脱獄リスクが高いとMicrosoft自身が注意喚起しており、性能優先の採用は統制側の負担を増やす。評価工数を理由に品質測定を後回しにしてきた組織も、測定の手間が下がった分、未測定の理由を説明しにくくなる。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

本番ログ直接採点の評価機能が、自社が他社クラウドで動かしているエージェントを対象に含むかを公式ブログの記載で確認する。

事業を決める人へ

Grok 4.3・DeepSeek V4 Pro・Kimi 2.6を自社用途で並べ、安全性の注意喚起とプロジェクト単位コストの両面から採用基準を比較する。

手を動かす人へ

Foundry Local 1.1/1.2のライブ音声書き起こしと多言語音声認識を、手元の定型業務で精度と処理時間の観点から試す。

時系列タイムライン

2026年3月 Grok 4.2がMicrosoft Foundryで正式提供
2026年4月 Microsoft Foundryの4月更新を公開
2026年5月31日 Microsoft Foundryの5月更新を公開。本番ログ直接採点の評価機能、Grok 4.3・DeepSeek V4の追加、Managed VNET正式提供など