生成AI評価をMLflow v3.10で定量化｜SageMaker

Amazon SageMaker AI MLflow Apps が MLflow v3.10 をサポートした。今回の目玉は、生成AIアプリの品質管理を実験管理と同じ器で扱えるようにした点である。

中核となるのは mlflow.genai.evaluation() API で、関連性（relevance）・忠実性（faithfulness）・正確性（correctness）・安全性（safety）の4つの組み込みメトリクスでアプリ出力を定量評価できる。従来、RAG やエージェントの品質評価は各チームが自前の評価スクリプトを書き、結果を別ツールで管理することが多かった。今回の統合で、実験の run 単位に評価結果が紐づき、バージョン間比較やリグレッション検知が標準ワークフローに入る。

観測性の面では、レイテンシ分布・リクエスト数・品質スコア・トークン使用量を表示する事前構築済みダッシュボードが追加された。コスト監視と品質監視を1画面で追えるため、プロダクション運用時のチューニング判断が速くなる。

移行コストは低い。pip install mlflow==3.10.1 と sagemaker-mlflow==0.3.0 の2パッケージで完結し、SageMaker AI サーバーレスモデルカスタマイズおよび SageMaker Unified Studio でも同じ仕組みが利用できる。

実装着手時の落とし穴として、組み込みメトリクスはあくまで汎用評価であり、業務固有の正解基準（例: 社内規程に沿った回答か、特定フォーマット遵守か）をそのまま測れるわけではない。カスタムメトリクスの併用と、評価用データセットのバージョン管理を同時に設計する必要がある。また、評価実行自体が LLM 呼び出しを伴うため、トークンコストを実験コストとして別枠で測ることが運用上の鍵になる。公開された価格情報はないため、初期は小さいデータセットで試して単価を実測する流れが現実的である。

生成AI評価をMLflow v3.10で定量化｜SageMakerの本文内説明図 — 図解: 生成AI評価を実験管理の同じ器で回す - 出力→4メトリクス→run集約→ダッシュボード判断、その途中に2つのゲート

押さえるポイント

mlflow.genai.evaluation()で関連性・忠実性・正確性・安全性を組み込み評価
レイテンシ・リクエスト数・品質・トークン使用量のダッシュボードを標準搭載
pip install mlflow==3.10.1とsagemaker-mlflow==0.3.0の2行で移行完了

5W1Hでサクッと理解 誰が AWS 
 何を MLflow v3.10対応 
 いつ 2026年5月6日 
 どこで SageMaker AI 
 なぜ 生成AI評価の標準化 
 どのように MLflow Apps更新 

何が起きたか

要点AWSは2026年5月6日、Amazon SageMaker AI MLflow AppsがMLflow v3.10をサポートし、生成AIアプリ向けの評価API・観測性・事前構築済みダッシュボードを提供すると発表した。

3つの視点で読む

開発現場

マルチターン会話やエージェントのトレースを MLflow の実験単位で記録し、genai.evaluation() で関連性・忠実性・正確性・安全性をコードから定量化できる。従来は自作していた LLM 評価ハーネスを、実験管理と同じ器で回せる。

事業判断

SageMaker AI 上の生成AI開発で、評価・観測・トラッキングが追加料金なしの標準機能として組み込まれた。LangSmith や Arize など専業 LLMOps ツールと、既存 SageMaker 利用企業にとっての一次選択肢の境界が動いた。

リスク・ルール

安全性メトリクスを実験ごとに記録できるため、エンタープライズ内部のモデル審査・監査ログに評価根拠を残しやすくなる。AI ガバナンス要件が強まる金融・医療の現場での説明責任に直結する。

追い風と向かい風

追い風を受ける側

SageMaker AI を既に使う開発チームpip 2行で MLflow v3.10 に上げられ、評価基盤を自前構築する工数が不要になる
エンタープライズの AI ガバナンス部門品質・安全性スコアとトークン使用量が標準ダッシュボードで可視化される
MLflow コミュニティマネージドホスティング環境が最新版に追従し、genai 機能の実戦投入が進む

向かい風を受ける側

評価特化型 LLMOps SaaS組み込み評価メトリクスと事前構築ダッシュボードが標準装備され、差別化ポイントが狭まる
自作の評価パイプラインを保守しているチーム標準APIへの移行判断を迫られ、既存資産の再設計コストが発生する

今やるべきこと

技術判断 確認する自社の SageMaker AI MLflow Apps のバージョンと、v3.10 の新APIが既存トラッキングサーバ構成と互換か確認する

事業判断 定義する生成AIアプリの品質基準を、関連性・忠実性・正確性・安全性の4指標でしきい値とともに定義する

実装・検証 試す 1つの RAG またはエージェントのワークフローで mlflow.genai.evaluation() を走らせ、トークン使用量とレイテンシ分布を測る

時系列タイムライン

以前 Amazon SageMaker AI MLflow Apps が提供開始、マネージド MLflow トラッキングを実現
以前サーバーレス MLflow への移行経路が整備され、既存トラッキングサーバのマイグレーションが可能に
2026年5月6日 SageMaker AI MLflow Apps が MLflow v3.10 をサポート、genai.evaluation API と標準ダッシュボードを追加