Gemini 3.5 Flash、画面操作エージェントに対応

モデルオンライン発表 06/26 21:04

AI TREND

Google DeepMind：画面操作機能を搭載

Google DeepMindが、Gemini 3.5 Flashに画面を見て操作する機能（native computer use）を標準ツールとして組み込んだと発表した。開発者はブラウザ・モバイル・デスクトップの3環境を横断して操作する独自エージェントを構築できる。

3 の要点を3分で

Google DeepMindが、Gemini 3.5 Flashに画面を見て操作する機能（native computer use）を標準ツールとして組み込んだと発表した。開発者は、ブラウザ・モバイル・デスクトップの3環境を横断して操作する独自のエージェントを構築できる。従来は外部ツールや追加実装が必要だった操作自動化を、モデル本体の機能として呼び出せる点が今回の特徴である。

注目点は、この機能が高速・低コストを志向する「Flash」系統に載ったことにある。画面操作エージェントは画面を見て操作を繰り返すため推論の呼び出し回数が多くなりやすく、推論単価がコストを左右する。Flash系統で動かせることは、入力代行やUIテストのように同じ操作を反復する用途で、エージェントを実運用に乗せる際のコスト判断材料になる。

業務自動化を内製する開発現場やUIテストを自動化したいチームにとっては構築の選択肢が広がる一方、画面操作の自動化を外部ツール前提で組んでいた構成は置き換えの検討対象になる。対応の前提条件や利用方法の詳細は公式発表で確認する必要がある。

Gemini 3.5 Flash、画面操作エージェントに対応の本文内説明図 — 図解: AIエージェント - GoogleDeepMindがGemini3.5Flashに画面操作機能

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

高速・低コスト志向のFlash系統に画面操作機能が標準搭載された
ブラウザ・モバイル・デスクトップの3環境を1つの仕組みで横断できる
外部ツールや追加実装なしでモデル本体から画面操作を呼び出せる

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Google DeepMind
何を: 画面操作機能を搭載
いつ: 2026年6月25日
どこで: オンライン発表
なぜ: 操作自動化の標準化
どのように: モデル本体の標準ツール

背景

近年、AIモデルは文章生成だけでなく、人間の代わりに画面を見て操作する「エージェント」へと進化している。Geminiシリーズの軽量・高速版である「Flash」系統に、こうした画面操作機能が標準ツールとして組み込まれた点が今回の特徴である。従来は外部ツールや追加実装が必要だった操作自動化を、モデル本体の機能として呼び出せるようになった。

なぜ今注目なのか

ブラウザ・モバイル・デスクトップという複数の操作環境を横断できるため、業務自動化やテスト、入力代行などの用途が広がる。高速・低コストを志向するFlash系統で利用できることは、エージェントを実運用に乗せるコスト面で重要な判断材料になる。

Gemini 3.5 Flashが画面を見て操作する機能を標準搭載

Google DeepMindは、Gemini 3.5 Flashに画面を見て操作する機能（native computer use、モデル本体に組み込まれた画面操作ツール）を搭載したと発表した。開発者はこの標準ツールを使い、ブラウザ・モバイル・デスクトップの画面を横断して操作する独自エージェント（人間の代わりに自律的に作業するソフトウェア）を構築できる。

Gemini 3.5 Flash now supports native computer use. This built-in tool lets developers build custom agents that can see and take action across browser, mobile, and desktop interfaces.
出典: Google DeepMind (X)

引用にある「native computer use」はモデルに最初から組み込まれた画面操作機能のこと、「built-in tool」は追加実装なしで呼び出せる標準ツールのこと、「across browser, mobile, and desktop interfaces」はブラウザ・モバイル・デスクトップの3つの画面環境を横断して操作できることを指す。従来は外部ツールや個別実装が必要だった操作自動化を、モデル本体の機能として呼び出せる点が今回の核心である。

Flash系統で使えることが実運用コストの判断を変える

今回の機能が高速・低コストを志向する「Flash」系統に載った点が、実運用を考える読者にとって最も効く変化である。画面操作エージェントは画面を見て判断し操作を繰り返すため、推論の呼び出し回数が多くなりやすい。上位モデルで動かすと反復のたびにコストが積み上がる。

Gemini 3.5 Flashは軽量・高速版として推論単価を抑える系統に位置づけられている。そのため、入力代行やUIテストのように同じ操作を何度も走らせる用途で、コストを抑えたままエージェントを回しやすくなる。これが、操作系エージェントを試作で終わらせず実運用に乗せられるかどうかの分かれ目になる。