DV-Worldは、データ可視化を担うAIエージェントを実業務に近い条件で評価するために構築された260タスクのベンチマークである。既存のベンチマークはコードサンドボックス内に閉じ、単一言語による作成タスクのみを扱い、ユーザーの意図が完全に明確であることを前提としていた。DV-Worldはこの3つのギャップを埋めるため、3領域で評価を構成する。
DV-Sheetはスプレッドシートのネイティブ操作を対象に、チャートやダッシュボードの作成、さらに診断的な修復までを含む。DV-Evolutionは既存の可視化成果物を新しいデータに適合させるため、異なるプログラミングパラダイム間での改変・再構築能力を測る。DV-Interactはユーザーシミュレーターを用い、現実世界の曖昧な要件に対してエージェントが能動的に意図を整合できるかを評価する。
評価フレームワークはハイブリッド方式である。数値の正確性はTable-value Alignmentで厳密に検証し、意味的・視覚的な品質はルーブリック付きのMLLM-as-a-Judgeで評価する。実験の結果、最先端モデルの総合性能は50%未満にとどまり、実務条件下でのデータ可視化には重大な不足があることが明らかになった。
日本の導入現場にとっての含意は明確である。BIや社内分析業務へのエージェント導入を検討する際、ベンダー提示の高スコアではなく、実務ライフサイクルに近いDV-World相当のタスクで達成率を測ることが、現実的な期待値設定につながる。データとコードはGitHubで公開されており、自社候補モデルを同一条件で比較する再現検証の基盤として利用できる。