Microsoftは2026年5月20日、Azure AI Foundryのモデルルーター向け評価ツールをOSSとして公開した。モデルルーターは28のフロンティアモデルに対応し、入力プロンプトに応じて自動的に最適なモデルへ振り分ける機能だが、その効果は自社のワークロード特性に強く依存するため、導入前の実測が事実上必須となる。

今回のOSSは品質(Quality)、コスト(Cost)、レイテンシ(Latency)を1回の実行で計測し、quality-per-dollarやquality-per-secondといった複合指標まで算出する。品質評価にはLLM-as-a-judge方式を採用し、評価対象の提示順序によるポジションバイアスを打ち消すdual-ordered pairwise方式が組み込まれている。これにより、ルーター比較の数値根拠が安定し、稟議や技術判断の材料として使いやすくなる。

運用上の制約も明記されている。対応リージョンはEast US 2とSweden Centralのみで、日本リージョンは含まれない。Claudeモデルへのルーティングを試す場合は事前に個別デプロイが必要で、モデルルーター側が自動的にデプロイすることはない。デフォルトのレート制限はGlobal Standardで250 RPM/250k TPMのため、評価規模を上げる際はYAML設定で並列数を調整する設計になっている。

さらにrun_foundry_eval.pyを使えば、評価結果をFoundryのエンタープライズ評価・ガバナンスツールに連携でき、クラウド側で品質履歴を継続管理できる。コンプライアンス上モデルサブセットを制限する企業にとって、制限による品質・価格への影響を事前に数値化できる点は、導入判断を大きく前に進める材料になる。