ブラウザAIが印刷ダイアログも操作可能に｜AWS新機能

ツール米国メガテック AgentCore Browser 05/06 06:02

AWSはAmazon Bedrock AgentCore Browserに「OS Level Actions」を追加し、ブラウザエージェントがOSレベルのマウス・キーボード操作とフルデスクトップのスクリーンショット取得を行えるようにした。InvokeBrowser APIから呼び出せるアクションはマウス（クリック・移動・ドラッグ・スクロール）、キーボード（文字入力・キー押下・ショートカット）、スクリーンショットの計8種類で、各アクションはSUCCESSまたはFAILEDのステータスを返す。

これまでのブラウザ自動化は、DOMやアクセシビリティツリーから到達できる要素に操作が限定されていた。印刷ダイアログ、ファイル選択、ブラウザ外のネイティブメニューはWeb層の外側にあり、エージェントが「画面に見えているのに触れない」状態になりがちだった。OS Level Actionsはフルデスクトップのスクリーンショットをbase64エンコードPNGで返し、視覚情報をもとに座標ベースでOS操作を実行する設計で、この穴を埋める。

実装はアクション→スクリーンショット→次アクションのループで進む。エージェントは画面状態を確認してから次の操作を決める構造で、視覚推論を前提としたエージェント設計と相性がよい。利用にはbedrock-agentcore:InvokeBrowser、StartBrowserSession、StopBrowserSessionのIAM権限が必要で、セッション管理とアクション発行の権限を分離できる。

日本企業にとっての含意は、ブラウザ業務とネイティブダイアログをまたぐRPA代替の現実味が増した点にある。UiPathなど既存RPAが得意としてきた領域にBedrockエージェントが入る一方、デスクトップ全体のスクリーンショットを扱う以上、画面に映る個人情報や社内機密の取り扱いポリシーは設計段階で定めておく必要がある。GitHub（awslabs/agentcore-samples）に8アクションのエンドツーエンドデモノートブックが公開されており、検証着手のハードルは低い。

ブラウザAIが印刷ダイアログも操作可能に｜AWS新機能の本文内説明図 — 図解: DOMの壁を越えるエージェント - AgentCore BrowserがOS層に手を伸ばすループ構造

押さえるポイント

マウス・キーボード・スクリーンショットの計8アクションをAPI化し、ネイティブダイアログ操作に対応
スクリーンショットはOSデスクトップ全体をbase64 PNGで返し、印刷ダイアログ等も取得可能
アクション→スクショ→次アクションのループ設計で、各操作にSUCCESS/FAILEDステータスを返却

5W1Hでサクッと理解 誰が AWS 
 何を OS操作機能を追加 
 いつ 2026年5月6日 
 どこで AgentCore Browser 
 なぜ ネイティブUI対応 
 どのように InvokeBrowser API 

何が起きたか

要点AWSが2026年5月6日、Amazon Bedrock AgentCore BrowserにOSレベル操作機能を追加した。InvokeBrowser APIを通じてマウス・キーボード操作とフルデスクトップのスクリーンショット取得を提供し、ブラウザのWeb層を超えたネイティブUIをエージェントが直接操作できるようにした。

3つの視点で読む

開発現場

従来のブラウザ自動化はDOMアクセス可能な要素に限定されていたが、OS Level Actionsはデスクトップ全体のスクリーンショットとOSレベルのマウス・キーボード制御を組み合わせることで、印刷ダイアログやファイル選択、右クリックメニューといったブラウザ外UIにエージェントが到達できる。アクション単位でSUCCESS/FAILEDを返すループ設計により、視覚に基づく推論と実行を同一セッションで完結できる。

事業判断

RPAが担ってきたブラウザ＋ネイティブダイアログの定型業務に、Bedrock上のLLMエージェントが直接介入できる選択肢が加わった。AgentCore利用企業は既存のInvokeBrowser基盤を拡張するだけで対応でき、UiPath等の専用RPA製品とのスタック比較が現実的な検討項目になる。

リスク・ルール

OSレベルの操作権限をエージェントに委譲するため、bedrock-agentcore:InvokeBrowser / StartBrowserSession / StopBrowserSessionのIAM権限設計が信頼境界の中心になる。スクリーンショットがデスクトップ全体を取得する仕様上、画面に映る機微情報の扱いを事前にポリシー化する必要がある。

追い風と向かい風

追い風を受ける側

AgentCore採用企業の開発チーム既存のInvokeBrowser APIを拡張する形で、印刷・ダウンロード・ネイティブダイアログを含む業務フローを自動化できる
ブラウザエージェント開発者OSデスクトップのスクリーンショットと8アクションが標準提供され、独自にOSフックを実装する必要がなくなる
AWS（Bedrock事業）エージェント基盤の適用範囲がWeb層外に拡大し、RPAリプレース案件を取り込める

向かい風を受ける側

Web層のみを扱う既存ブラウザ自動化ツールネイティブUI対応がない製品は、OS Level Actions相当の機能比較で差分が生じる
オンプレRPA専用ベンダーLLMエージェント＋OS操作が一つのAPIで提供されることで、ブラウザ業務での棲み分けが狭まる

今やるべきこと

技術判断 確認する bedrock-agentcore:InvokeBrowser / StartBrowserSession / StopBrowserSessionのIAM権限境界と、デスクトップ全体スクリーンショットが取得する情報範囲を確認する

事業判断 定義する既存RPAで運用中の「印刷ダイアログ」「ファイルダウンロード」などブラウザ外UIを伴う業務をリスト化し、OS Level Actionsへの移行可否判定基準を定義する

実装・検証 試す GitHub公開のコンパニオンノートブック（agentcore-samples 14-BROWSER-OS-ACTIONS）で8アクションのエンドツーエンドデモを試し、各アクションのSUCCESS/FAILED率を測る

時系列タイムライン

2026年5月6日 AWS Machine Learning BlogでOS Level Actionsを発表、InvokeBrowser API経由で8アクションを提供開始
2026年5月6日 GitHub（awslabs/agentcore-samples）にエンドツーエンドデモのコンパニオンノートブックが公開
発表以前 AgentCore BrowserはWeb層のみを扱い、印刷ダイアログ等のネイティブUIには対応していなかった