Google DeepMindが、Gemini 3.5 Flashに画面を見て操作する機能(native computer use)を標準ツールとして組み込んだと発表した。開発者は、ブラウザ・モバイル・デスクトップの3環境を横断して操作する独自のエージェントを構築できる。従来は外部ツールや追加実装が必要だった操作自動化を、モデル本体の機能として呼び出せる点が今回の特徴である。

注目点は、この機能が高速・低コストを志向する「Flash」系統に載ったことにある。画面操作エージェントは画面を見て操作を繰り返すため推論の呼び出し回数が多くなりやすく、推論単価がコストを左右する。Flash系統で動かせることは、入力代行やUIテストのように同じ操作を反復する用途で、エージェントを実運用に乗せる際のコスト判断材料になる。

業務自動化を内製する開発現場やUIテストを自動化したいチームにとっては構築の選択肢が広がる一方、画面操作の自動化を外部ツール前提で組んでいた構成は置き換えの検討対象になる。対応の前提条件や利用方法の詳細は公式発表で確認する必要がある。