資産運用向けAIを手がけるBridgeWiseが、AWSのAI基盤Amazon Bedrockを使い、独自学習したモデルの回答品質を自動評価する仕組みを構築した。別のAIに回答を採点させる「審査役としての大規模言語モデル(LLM-as-a-Judge)」方式を採用し、これまで専門家チームが数日かけていた評価を自動化した。
同社は7万超の世界の金融資産を分析する基盤を持つが、金融規制や言語表現に合わせた再学習のたびに過去の学習が失われる「破滅的忘却」のリスクを抱えていた。今回の基盤では、Bedrock上のAnthropic Claudeなどに回答を採点させ、評価処理をAmazon SageMakerの処理ジョブで実行し、結果をS3に保存、運用指標をCloudWatchへ送る。
AWS PACEチームと3週間で構築し、人手は採点のズレ検出のための一部確認に限定した。資産運用では誤答が投資家の資金判断に直結するため、再学習後の品質劣化を素早く検知する自動評価は、規制業界でAIを安全に運用し続けるための実務的な要点になる。