AWSは2026年5月19日、Amazon Bedrock AgentCoreにおいてLambdaベースのカスタムコード評価器を構築する実装ガイドをMachine Learning Blogで公開した。AIエージェントの本番運用では、組み込みの汎用評価器だけでは業界固有の品質基準やコンプライアンス要件を満たせないケースが多く、評価ロジックの拡張性が課題となっていた。
今回のガイドでは、金融市場インテリジェンスエージェントを題材に4つのカスタム評価器をLambdaで実装し、それぞれをAgentCoreに登録してオンデマンドモードとオンラインモードの両方で実行する手順が示されている。オンデマンドモードは開発時の回帰テストや過去ログのバッチ評価に、オンラインモードは本番トラフィックに対するリアルタイム監視に向く構成だ。
注目すべきは、組み込み評価器とカスタム評価器を併用するパターンが明示されている点である。汎用的な指標は組み込み評価器に任せ、ドメイン固有のルールだけをカスタム実装することで、評価基盤の構築工数を最小化できる。さらに他のAWSサービスを呼び出す例として、グラウンディングされたファクトチェック、PII(個人を特定可能な情報)検出、リアルタイム警告の3つが挙げられている。
日本企業にとっての含意は明確だ。金融機関や医療など、AIエージェントの出力品質に対する説明責任が求められる業界では、評価の自動化と監査ログの整備が必須となる。今回のガイドはその実装の出発点となる素材であり、PoC段階の企業は本ブログの構成を写経し、自社ドメインのルールに置き換えて応答時間と運用コストを測ることから着手できる。一方で、評価専業のサードパーティSaaSを採用していた企業は、AgentCore内で評価まで完結する構成と機能・コストを比較する局面に入る。