自然言語で評価基準を書く時代へ

Amazon Connect Customerに追加されたのは、AIエージェントが処理したセルフサービス対話を生成AIで自動評価する機能だ。マネージャーは評価フォーム内で、評価基準を自然言語で記述できる。AWSの発表では具体例として次のような基準が挙げられている。

Managers can define custom evaluation criteria in natural language within evaluation forms — such as 「Were all of the customer issues resolved by the AI agent?」

つまり「AIエージェントは顧客のすべての問題を解決したか」といった質問形式の評価基準をそのまま書ける。コードもルールエンジンの設定も介在しない。

参照点付きの判定と集計インサイト

生成AIは判定結果と詳細な根拠を返し、その根拠は会話トランスクリプトの該当箇所を参照点として示す形になる。マネージャーは個別コンタクト単位の評価と、集計レベルのインサイトを、録音・トランスクリプトと並べて確認できる。これはエージェントAIの「ブラックボックス化」を実運用で抑える具体的な仕組みで、判定の事後検証可能性が担保される。

機能系譜としては、2024年5月に有人エージェント向けの生成AIパフォーマンス評価がプレビュー提供され、同年12月に一般提供化された流れの延長線上にある。今回はその対象が人間のエージェントからAIエージェント(セルフサービス)側へ拡張された格好だ。

落とし穴: 評価基準そのものの品質管理

注意すべきは、自然言語で評価基準を書けることと、評価基準が妥当であることは別問題だという点だ。「問題は解決したか」という一文の解釈は、業務ドメインによって大きく振れる。導入時は、過去の代表的なコンタクトに対して人手レビューと自動評価の一致率を測り、基準文を反復改訂する工程が必要になる。利用可能リージョンは米国東部(バージニア北部)、米国西部(オレゴン)、アジアパシフィック(ソウル、シンガポール、シドニー、東京)、欧州(フランクフルト)。日本企業はデータ所在地の制約なく検証着手できる。