AWSが、文書から業務データを抽出する処理基盤を即時応答型と一括処理型の2系統で構成し、文書ごとに動的に切り替える実装例を公開した。即時処理は1件ずつ数秒で結果を返し、一括処理は複数文書を非同期でまとめて処理する。
基盤にはAmazon Bedrockのバッチ推論とプロンプト管理機能を使う。バッチ推論は対象モデルで即時推論の半額で提供されており(2024年8月一般提供)、時間制約のない大量処理を一括側に寄せれば推論費を半減できる。プロンプト管理機能は指示文をIDとバージョンで管理でき(2024年11月一般提供)、文書単位でモデルと指示文を切り替えられるため、書式が一定でない文書群も単一の仕組みで処理できる。
実装上の制約として、Claude 4 Sonnetは1回の呼び出しで画像20枚までのため20ページ超の文書は分割が必要で、一括推論ジョブは最低100件の文書を要する。プロンプトは1リージョン50件・1件あたり10バージョンの上限がある。