Azureモデルルーター評価ツールがOSS化｜実測必須

AI TREND

Microsoft Foundry：ルーター評価OSS公開

MicrosoftがAzure AI Foundryのモデルルーター向けに、品質・コスト・レイテンシを1回の実行で計測する評価ツールをOSSとして公開した。LLM-as-a-judgeはdual-ordered pairwise方式でポジションバイアスを打ち消す設計になっている。

3 の要点を3分で

Microsoftは2026年5月20日、Azure AI Foundryのモデルルーター向け評価ツールをOSSとして公開した。モデルルーターは28のフロンティアモデルに対応し、入力プロンプトに応じて自動的に最適なモデルへ振り分ける機能だが、その効果は自社のワークロード特性に強く依存するため、導入前の実測が事実上必須となる。

今回のOSSは品質（Quality）、コスト（Cost）、レイテンシ（Latency）を1回の実行で計測し、quality-per-dollarやquality-per-secondといった複合指標まで算出する。品質評価にはLLM-as-a-judge方式を採用し、評価対象の提示順序によるポジションバイアスを打ち消すdual-ordered pairwise方式が組み込まれている。これにより、ルーター比較の数値根拠が安定し、稟議や技術判断の材料として使いやすくなる。

運用上の制約も明記されている。対応リージョンはEast US 2とSweden Centralのみで、日本リージョンは含まれない。Claudeモデルへのルーティングを試す場合は事前に個別デプロイが必要で、モデルルーター側が自動的にデプロイすることはない。デフォルトのレート制限はGlobal Standardで250 RPM／250k TPMのため、評価規模を上げる際はYAML設定で並列数を調整する設計になっている。

さらにrun_foundry_eval.pyを使えば、評価結果をFoundryのエンタープライズ評価・ガバナンスツールに連携でき、クラウド側で品質履歴を継続管理できる。コンプライアンス上モデルサブセットを制限する企業にとって、制限による品質・価格への影響を事前に数値化できる点は、導入判断を大きく前に進める材料になる。

Azureモデルルーター評価ツールがOSS化｜実測必須の本文内説明図 — 図解: ルーター実測の三軸と、その手前にある制約 - 自社プロンプトを28モデルへ振り分け、quality-per-$で判断するまでの経路

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

28フロンティアモデル対応のルーターを自社プロンプトで実測できる公式OSSが登場
quality-per-dollarやquality-per-secondなど複合指標を1回の実行で算出
対応リージョンはEast US 2とSweden Centralのみ、データ所在地に制約

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Microsoft Foundry
何を: ルーター評価OSS公開
いつ: 2026年5月20日
どこで: Foundry Blog
なぜ: 三軸実測の標準化
どのように: GitHub OSS配布

何が起きたか

MicrosoftがAzure AI Foundryのモデルルーター向けに、品質・コスト・レイテンシを1回の実行で計測する評価ツールをOSSとして公開した。LLM-as-a-judgeはdual-ordered pairwise方式でポジションバイアスを打ち消す設計になっている。

3つの視点で読む

技術 / 事業 / 規制 — この変化があなたの判断にどう効くか。

技術への影響

LLM-as-a-judgeのポジションバイアスをdual-ordered pairwiseで相殺する設計が公式実装として配布された。デフォルトのGlobal Standardレート制限は250 RPM／250k TPMで、YAMLによる並列数調整が前提となるため、評価パイプラインの設計指針が一次情報として確定した。

市場・事業への影響

モデルルーターの「自動切替で安くなる」という宣伝文句を、自社プロンプトで quality-per-dollar として数値化できる。コンプライアンス要件で利用モデルを絞る企業は、サブセット制限が品質と単価に与える影響を導入前に定量比較できる。

規制・リスク

対応リージョンがEast US 2とSweden Centralに限定される事実は、日本国内のデータ所在地要件と直結する。国内リージョン非対応のため、機微データを扱う日本企業は越境データ移転の整理が前提となる。

機会と脅威

この変化で機会を得るのは誰か、脅威にさらされるのは誰か。

機会 3

Azure AI Foundry利用企業

ルーター導入の効果を自社ワークロードで事前検証でき、移行リスクを下げられる

モデル選定担当の技術リード

品質・コスト・レイテンシの三軸を1回の実行で揃え、稟議資料の根拠が作れる

Microsoft Foundry

OSS化により評価方法論が業界標準として普及しやすく、ルーターの採用障壁が下がる

脅威 3

単一モデル固定運用のベンダーロックイン

実測比較が容易になり、固定モデル前提の提案が数値で覆されやすくなる

国内リージョン必須の日本企業

East US 2／Sweden Central限定のため、データ所在地要件がある場合は採用検討の前段で除外される

Anthropic Claude経由のシンプル統合期待層

Claudeはモデルルーターに自動デプロイされず、個別デプロイ運用が必要になる

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

自社のデータ所在地要件がEast US 2もしくはSweden Centralで満たせるかを確認する。

事業を決める人へ

ルーター採用の合否基準をquality-per-dollarとquality-per-secondの目標値で定義する。

手を動かす人へ

自社代表プロンプトでrun_foundry_eval.pyを走らせ、デフォルト250 RPM／250k TPMで詰まる箇所を切り分ける。

時系列タイムライン

2026年5月20日 Microsoft Foundry Blogでモデルルーター評価ツールの実行手順とOSSが公開
公開時点対応リージョンはEast US 2とSweden Centralの2拠点に限定
今後 run_foundry_eval.py経由でFoundryエンタープライズ評価への結果連携が可能

情報ソース

How to run evals for the model router 一次情報公式技術
Model router for Azure AI Foundry 公式製品ドキュメント
実装コード実装コード
製品ドキュメント: Privacy Statement. 製品ドキュメント

ツールの記事

読み込み中...

Microsoft Foundry：ルーター評価OSS公開

関連リンク

時系列タイムライン

SNSの反応

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

ツールの記事