他社製AIエージェントもまとめて品質監視｜Foundry新指針

ツール米国メガテック Build 2026 06/04 22:04

AI TREND

Microsoft：観測機能を枠組み拡張

Microsoftが Build 2026 で、Foundry の観測機能を任意のエージェント開発枠組みと展開先に拡張し、他社製を含むエージェントを共通の品質指標で監視・評価し、改善から費用対効果の算出までつなぐと発表した。

3 の要点を3分で

Microsoftが Build 2026 で、Foundry の観測機能（observability）を任意のエージェント開発枠組みと展開先へ拡張すると発表した。LangChain・LangGraph・OpenAI SDK・Microsoft Agent Framework、および OpenTelemetry 経由の独自枠組みに対応し（公開プレビュー）、他社製を含むエージェントを一つの追跡画面で監視・評価できる。

用途ごとに評価基準を自動生成する「ルーブリック評価器」を新設し、課題達成度・口調・安全性・費用・遅延の5軸を重み付けして採点する。本番のやり取りを賢く抽出する「インテリジェント・トレースサンプリング」により、全件評価せず費用を抑えながら品質を継続監視する。

エージェント最適化機能は改善案を根拠付きで順位化し、差分・履歴・巻き戻し（ロールバック）に対応する。これは現在非公開プレビューで、今月中に公開プレビューへ移行する予定。AIエージェントは非決定的で挙動が静かに劣化するため、ログやエラー率だけでは品質低下を捉えきれない。経営層の「費用に見合うのか」という問いに観測データで答える道筋を示す内容である。

他社製AIエージェントもまとめて品質監視｜Foundry新指針の本文内説明図 — 図解: AIエージェント - MicrosoftがBuild2026でFoundryの観測機能

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

LangChain・OpenAI SDK 等の他社製エージェントを一つの画面で監視可能に
用途別に採点基準を自動生成する「ルーブリック評価器」を新設
全件評価せず費用を抑える「トレースサンプリング」で品質を継続監視

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Microsoft
何を: 観測機能を枠組み拡張
いつ: 2026年6月3日
どこで: Build 2026
なぜ: 本番品質の維持
どのように: OpenTelemetry連携

背景

従来のソフトは同じ入力に同じ出力を返すが、AIエージェントは非決定的で、同じ指示でも日によって別の手順を選ぶ。モデルの更新や利用パターンの変化に伴って挙動が静かに変質し、ログやエラー率だけでは品質低下を捉えきれない。今春、Foundryでは追跡（トレース）と評価機能が正式提供に達していた。今回はその基盤を、特定の開発枠組みに縛られない形へと広げる位置づけである。

なぜ今注目なのか

本番投入後の精度・安全性・説明責任の維持は、多くの開発チームがつまずく難所である。複数の開発枠組みを混在させた実運用システムでも、共通の品質指標で監視できる点は、エージェント運用を経営判断につなげたい組織にとって実利が大きい。経営層が問う「このエージェントは費用に見合うのか」という問いに、観測データから答えを出す道筋を示している。

デモが終わった後に静かに崩れる品質を、枠組み横断で見る

Microsoft が Build 2026 で、Foundry の観測機能（observability、本番投入後にエージェントの挙動を追跡・評価する仕組み）を任意のエージェント開発枠組みと任意の展開先へ拡張すると発表した。狙いは、デモでは動いていたエージェントが本番で静かに劣化する問題への対処である。

Shipping an AI agent is the easy part. Keeping it accurate, safe, and accountable in production is where teams get stuck. Agents are non-deterministic.
出典: Microsoft Foundry Blog

エージェントを出荷するのは簡単な部分で、本番で精度・安全性・説明責任を保ち続けるところで多くのチームがつまずく、という指摘である。従来のソフトは同じ入力に同じ出力を返すが、AIエージェントは非決定的で、同じ指示でも日によって別の手順を選ぶ。モデルの更新や利用パターンの変化に伴って挙動が静かに変質し、その多くはデモのずっと後に起きる。ログやエラー率だけでは捉えきれないこの劣化を、共通の品質指標で監視できるようにした点が今回の核心である。

LangChain も OpenAI SDK も、一つの追跡画面に集約

今回の拡張で目を引くのは、特定の開発枠組みに縛られない点である。追跡（トレース、エージェントが何をどう処理したかの記録）と評価が、次の枠組みに対応した（いずれも公開プレビュー）。

LangChain・LangGraph
OpenAI SDK
Microsoft Agent Framework
上記以外の独自枠組み（OpenTelemetry 経由＝アプリの挙動を標準形式で記録・転送する仕組みを通じて接続）

つまり他社製を含む複数の枠組みを混在させた実運用システムでも、一つの追跡画面でまとめて監視・評価できる。枠組みごとにバラバラの監視を組まずに済む点が、従来との大きな差分である。

用途別に採点基準を自動生成する「ルーブリック評価器」

新設された「ルーブリック評価器」は、用途ごとに評価基準を自動生成する採点役である。何を採点するかは次の5軸で、それぞれを重み付けして点数化する。

課題達成度（タスクをどれだけ達成できたか）
口調（応答のトーンが用途に合っているか）
安全性
費用
遅延（レイテンシ＝応答までの時間）

これにより「正解か不正解か」だけでなく、費用や遅延まで含めた多面的な採点が一度にできる。さらに、本番のやり取りを賢く抽出して評価する「インテリジェント・トレースサンプリング」を組み合わせると、全件を評価せずに費用を抑えながら品質を継続的に監視できる。全件評価を前提にしていた運用は、ここで監視設計を見直す余地が出た。

改善案を順位化し、巻き戻しまで対応する最適化機能

観測の先にあるのが、エージェントを改善する機能である。エージェント最適化機能は、改善案を根拠付きで順位化し、差分・履歴・巻き戻し（ロールバック＝変更を以前の状態へ戻すこと）に対応する。

この機能は現時点で非公開プレビューだが、今月中に公開プレビューへ移行する予定とされている。観測（どこが悪いか）→ 評価（どれだけ悪いか）→ 最適化（どう直すか、戻せるか）という一連の流れを一つの基盤でつなぐ構図であり、経営層が問う「このエージェントは費用に見合うのか」という問いに、観測データから答えを出す道筋を示している。