AIエージェントの嘘を実行経路ごと検出｜AWS製OSS

AI TREND

AWS：評価ツール公開

AWSが、AIエージェントの挙動を計画から報告まで6段階で体系的に検証するオープンソースツール『Agent-EvalKit』(Apache 2.0)を公開し、ツール呼び出しや中間状態を含む実行経路全体を追跡して評価できるようにした。

3 の要点を3分で

AWSが、AIエージェントの挙動を体系的に検証するオープンソースツール『Agent-EvalKit』を公開した。ライセンスはApache 2.0。計画・データ・追跡・実行・評価・報告の6段階で評価を進める。

AIエージェントは複数の情報源を横断し、自律的にツールを選んで処理を組み立てる。そのため出力だけを期待値と突き合わせる従来の検証では、ツールが空の結果を返したのに見栄えの良い回答をでっち上げる幻覚や、検証手順を飛ばす経路を見逃しやすい。Agent-EvalKitはツール呼び出しや中間状態を記録する観測性を備え、コードベース評価とLLM審査(LLM as judge)を組み合わせて忠実性やツール利用を測定する。

Strands・LangGraph・CrewAIを自動検出して実行経路をOpenTelemetry互換で可視化し、Claude Code・Kiro CLI・Kilo Codeと連携して動作する。提案がコードの具体的な箇所を指すため、評価結果を実際の修正に直結できる点が実務的な価値となる。公式ブログでは、Strands Agents SDKとAmazon Bedrockで作った旅行リサーチ用エージェントを例に各段階を説明している。

AIエージェントの嘘を実行経路ごと検出｜AWS製OSSの本文内説明図 — 図解: AIエージェント - AWSがの挙動を計画から報告まで6段階で体系的に検証するオープンソースツール

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

出力だけでなくツール呼び出し・中間状態まで実行経路全体を追跡
Claude Code・Kiro CLI・Kilo Codeと連携し修正箇所を提案
Strands・LangGraph・CrewAIを自動検出しOpenTelemetry互換で可視化

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWS
何を: 評価ツール公開
いつ: 2026年6月12日
どこで: AWS公式ブログ
なぜ: 経路の失敗検出
どのように: コード解析とLLM審査

背景

AIエージェントは複数の情報源を横断し、自律的にツールを選んで処理を組み立てる。そのため従来のように出力だけを期待値と突き合わせる検証では、内部の問題を見逃しやすい。例えば、ツールが空の結果を返したにもかかわらず、見栄えの良い回答をでっち上げる（幻覚／hallucination）こともある。正しい結論に至っても、信頼性に必要な検証手順を飛ばしている場合もある。こうした表面に出ない失敗を捉えるには、ツール呼び出しや中間状態を記録する仕組み（観測性／observability）と、正解付きのテスト事例、忠実性を測る指標が必要になる。

なぜ今注目なのか

エージェント開発チームの多くは、こうした評価基盤を一から作る人員を確保できていない。Agent-EvalKitは評価を開発環境の中に取り込み、自然言語で目標を伝えるだけでテスト生成から実行、改善提案までを担う。提案がコードの具体的な箇所を指すため、評価結果を実際の修正に直結できる点が実務的な価値となる。

AIエージェントの「もっともらしい嘘」をどう捕まえるか

AIエージェントは複数の情報源を横断し、自律的にツールを選んで処理を組み立てる。だから出力だけを期待値と突き合わせる従来の検証では、内部の問題を見逃しやすい。例えばツールが空の結果を返したのに、見栄えの良い回答をでっち上げる幻覚(hallucination)が起きる。正しい結論に至っても、信頼性に必要な検証手順を飛ばしている場合もある。

こうした表面に出ない失敗を捉えるには、ツール呼び出しや中間状態を記録する仕組み(観測性/observability)と、正解付きのテスト事例、忠実性を測る指標が要る。AWSが公開した『Agent-EvalKit』は、この評価基盤をオープンソース(Apache 2.0)でまとめて提供する。

Agent-EvalKit is an open-source toolkit (Apache 2.0) that makes this evaluation infrastructure available by integrating with AI coding assistants, including Claude Code, Kiro CLI, and Kilo Code.
出典: AWS Machine Learning Blog

引用にあるとおり、Claude Code・Kiro CLI・Kilo CodeというAIコーディング支援ツールに組み込む形で、評価を開発環境の中に取り込む設計だ。

計画から報告まで6段階で実行経路を追う仕組み

Agent-EvalKitは評価を6つの段階で進める。計画・データ・追跡・実行・評価・報告だ。公式ブログは、Strands Agents SDKとAmazon Bedrockで作った旅行リサーチ用エージェントを例に、各段階の動きを説明している。

核心は測定の二段構えにある。ソースコードを解析する評価(コードベース評価)と、別のLLMに回答の妥当性を判定させる審査(LLM as judge=LLMを審査役に使う手法)を組み合わせ、回答の忠実性やツール利用の適切さを測る。出力の正誤だけでなく、「どのツールを呼び、どんなデータが返り、最終回答とどう整合したか」という実行経路全体を追う。

実行経路の可視化はOpenTelemetry互換で行う。これはアプリの動作ログを標準形式で記録・追跡する仕組みで、Agent-EvalKitはStrands・LangGraph・CrewAIといった主要なエージェント開発フレームワークを自動で検出し、それぞれの実行経路を見える化する。特定フレームワークに縛られず、既存のエージェント実装に評価を載せられる点が実務的だ。

評価結果がそのまま修正につながる理由

得をするのは、評価基盤を一から作る人員を確保できていないエージェント開発チームだ。観測性の仕組み・正解付きテスト事例・忠実性指標を自前で組む工数は重く、多くのチームがそこに手が回っていない。Agent-EvalKitはそれを開発環境に取り込み、自然言語で目標を伝えるだけでテスト生成から実行、改善提案まで担う。

Strands・LangGraph・CrewAIの利用者も恩恵を受ける。これらを自動検出するため、既存実装に大きく手を入れずに評価を始められる。

一方、出力の一致だけで品質を見てきたチームには、その検証が不十分だと突きつけられる。ツールが空の結果を返したのに回答を作る幻覚や、検証手順を飛ばした経路は、出力一致では素通りしてしまうからだ。提案がコードの具体的な箇所を指すため、評価結果を実際の修正に直結できる——ここがこのツールの実務的な価値の中心になる。