調査会社Artificial Analysisが、AIエージェント運用向けに業界初の性能指標AgentPerfを公開した。初回結果で、NVIDIAの最新基盤GB300 NVL72(Blackwell Ultra)が前世代H200比で消費電力あたり最大20倍のエージェントを同時稼働した。
従来のAI性能測定は1問1答を前提にしていたが、エージェントは目標を多数の手順に分解し、外部ツール呼び出しを挟みながらLLMを何十回も連鎖呼び出しする。処理が積み上がるほど文脈が膨らみ基盤負荷が掛け算的に増えるため、既存指標では実態を測れなかった。AgentPerfは実在する12以上のプログラミング言語のコード作業履歴を素材に設計され、測定には大規模MoEモデルDeepSeek V4 Proが使われた。
GB300 NVL72の優位の源泉は、72基のGPUを1つのラック規模システムに統合し処理を効率分散させる設計にある。BasetenやTogether AI、DeepInfraなどはすでにBlackwell上で本番運用を始めており、基盤選定の比較軸が単価・速度から電力あたり同時処理数へ広がる。