AWSが音声対話AI「Amazon Nova Sonic」を対象に、人がマイクで話さなくても会話品質を自動評価できるオープンソースの検証ツール「Nova Sonic Test Harness」を公開した。複数ターンの会話を自動実行し、別のLLMを審査役に使って採点する。音声出力と文字出力が食い違う「音声の取り違え(audio hallucination)」も検出できる。

テスト内容はJSON設定ファイルで定義し、正解出力ではなく目標と評価基準(ルーブリック)を記述する。利用者役のLLM(例: Claude Haiku)が会話相手を演じ、審査役のLLM(例: Claude Opus)がテスト設定を知らない状態で会話記録だけを見て採点して偏りを防ぐ。約8分の接続切れも履歴再生で自動引き継ぎ、評価指標は目標達成・応答の正確さ・ツール利用など6項目3段階の重要度で整理している。

音声AIは同じ質問でも毎回異なる応答を返すため従来の文字列一致テストが使えず、50シナリオ×3利用者像で150回の手動テストが必要になる現場もあった。このツールは本番投入前の回帰テストを現実的にし、Nova Sonicを業務に組み込む企業の品質保証工数とリスクを下げる選択肢となる。