BAMI論文著者:学習不要のGUI精度改善手法公開
画像: AI生成

BAMI(Bias-Aware Manipulation Inference)は、PCやスマートフォンのUIを認識してクリック・ドラッグなどを実行するGUIエージェントの「どこを指しているか」を当てる能力、いわゆるGUIグラウンディングの精度を、モデルを再学習せずに引き上げる手法としてarXivで公開された。

論文では、ScreenSpot-Proのような複雑なベンチマークで既存モデルが苦戦する原因を、独自提案のMPD(Masked Prediction Distribution)という帰属手法で分析している。その結果、誤りの主因は画面の高解像度に由来する「精度バイアス」と、UI要素が入り組んでいることで生じる「曖昧性バイアス」の2種類に整理された。

BAMIはこの2つに対して、まず画面を粗く見てから該当領域を細かく見直すcoarse-to-fine focusと、複数の候補の中から最も確からしい要素を選ぶcandidate selectionという2つの推論時操作を適用する。これにより、TianXi-Action-7BではScreenSpot-Pro精度が51.9%から57.8%へと5.9ポイント向上したと報告されている。

実務観点で重要なのは、追加学習が不要で既存のGUIグラウンディングモデルに差し込める点だ。RPAや業務自動化のエージェントを開発しているチームは、モデル資産を入れ替えずに推論パイプラインの改修だけで改善余地を取りに行ける。実装コードはGitHubで公開されているため、自社の評価セットでのA/B比較がすぐ始められる。一方で、ablation studyは安定性を示しているものの、日本語UIや業務アプリ特有の密度の高い画面での挙動は各社の環境で測り直す必要がある。