AWSはAmazon Bedrock AgentCore Browserに「OS Level Actions」を追加し、ブラウザエージェントがOSレベルのマウス・キーボード操作とフルデスクトップのスクリーンショット取得を行えるようにした。InvokeBrowser APIから呼び出せるアクションはマウス(クリック・移動・ドラッグ・スクロール)、キーボード(文字入力・キー押下・ショートカット)、スクリーンショットの計8種類で、各アクションはSUCCESSまたはFAILEDのステータスを返す。
これまでのブラウザ自動化は、DOMやアクセシビリティツリーから到達できる要素に操作が限定されていた。印刷ダイアログ、ファイル選択、ブラウザ外のネイティブメニューはWeb層の外側にあり、エージェントが「画面に見えているのに触れない」状態になりがちだった。OS Level Actionsはフルデスクトップのスクリーンショットをbase64エンコードPNGで返し、視覚情報をもとに座標ベースでOS操作を実行する設計で、この穴を埋める。
実装はアクション→スクリーンショット→次アクションのループで進む。エージェントは画面状態を確認してから次の操作を決める構造で、視覚推論を前提としたエージェント設計と相性がよい。利用にはbedrock-agentcore:InvokeBrowser、StartBrowserSession、StopBrowserSessionのIAM権限が必要で、セッション管理とアクション発行の権限を分離できる。
日本企業にとっての含意は、ブラウザ業務とネイティブダイアログをまたぐRPA代替の現実味が増した点にある。UiPathなど既存RPAが得意としてきた領域にBedrockエージェントが入る一方、デスクトップ全体のスクリーンショットを扱う以上、画面に映る個人情報や社内機密の取り扱いポリシーは設計段階で定めておく必要がある。GitHub(awslabs/agentcore-samples)に8アクションのエンドツーエンドデモノートブックが公開されており、検証着手のハードルは低い。