AWSは開発企業Lokaが音声対話モデルAmazon Nova 2 Sonicを使い、自然で待ち時間の短い音声エージェントを構築した事例を公開した。音声を文字に変換せず音声のまま理解・生成する音声対音声方式により、最初の応答までの時間を1.39秒に短縮し、ユーザーの割り込み発話にも自然に対応した。
音声推論ベンチマークBig Bench AudioではNova 2 Sonicが87.0点を記録し、GPT Realtimeの83.0、Gemini 2.5 Flashの71.0を上回った。コストは入力音声1時間あたり約0.27ドル(公開時点)で、自動車販売店のような大規模な顧客対応に音声AIを現実的に乗せられる水準に近づいた。
Lokaはプロンプトを反復して磨き、総合評価を2.7→3.1→3.8(5点満点)へ向上させた。運用ではAmazon Bedrockのプロンプト管理で版を管理し、店舗ごとの変数を実行時に差し込んで再利用している。応答速度・精度・コストの三つを同時に比較できる判断材料になる。