S3内PDFを月2.5ドルで抽出｜MCPとTextractの使い分け

AI TREND

AWS：PDF抽出サーバ手順公開

AWSが、Amazon S3内のPDFからリアルタイムにテキストを抽出するサーバの構築手順を公開した。AIアシスタントと外部データをつなぐ共通規格MCP（モデルコンテキストプロトコル）を使い、最小構成で文書に即座に問い合わせる仕組みである。

3 の要点を3分で

AWSが2026年6月26日、Amazon S3内のPDFからテキストをリアルタイムに抽出するサーバの構築手順を機械学習ブログで公開した。AIアプリと外部データを安全につなぐ共通規格MCP（モデルコンテキストプロトコル）を採用し、構成はコマンドライン入力・MCP通信層・PDF処理サーバ・S3保管の4要素で、権限はIAMで制御する。

判断材料はコストと用途の切り分けだ。月1万ページ想定でMCP方式は約2.5ドル、Amazon Textract方式は約23〜28ドルと試算される（参考値）。ただしMCP方式が成立するのは文字埋め込み済みPDFに限られ、スキャン画像の文字認識（OCR）や帳票・表の抽出が必要ならTextractを選ぶべきと明確に切り分けている。

前提はPython 3.10以降、AWS CLI、Kiro CLI、boto3／PyPDF2／mcpパッケージ。文書をすでにS3に貯め、バッチ完了を待たずに対話的アクセスを試したい事業者にとって、検証段階の低コスト選択肢として位置づく。

S3内PDFを月2.5ドルで抽出｜MCPとTextractの使い分けの本文内説明図 — 図解: AIエージェント - AWSがAmazonS3内のPDFからリアルタイムにテキストプロトコル

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

月1万ページ想定でMCP方式は約2.5ドル、Textract方式は約23〜28ドルと試算
AIアプリと外部データを安全につなぐ共通規格MCPの実践例として公開
文字埋め込み済みPDF向け。OCRや帳票抽出が必要ならTextractを推奨

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWS
何を: PDF抽出サーバ手順公開
いつ: 2026年6月26日
どこで: AWS機械学習ブログ
なぜ: 対話的な即時アクセス
どのように: MCPとS3とIAM

背景

多くの企業では文書がS3に保管されているが、テキストを取り出すには独自スクリプトを書くか、まとめて処理するバッチ処理（一括処理）の完了を待つ必要があった。監査中に特定の条項を探す法務担当者や、会議直前に決算数値を確認する財務担当者にとって、こうした待ち時間は実用的でない。本記事はその中間に位置する手法として、対話的な即時アクセスを提示する。文書処理サービスAmazon Textractとの使い分けも示している。

なぜ今注目なのか

AIアシスタントを外部データに安全につなぐ規格としてMCPが普及しつつあり、本記事はその実践例として参考になる。文字情報がすでに埋め込まれたPDFなら、月10,000ページ規模でも保管・転送費だけで月2.5ドル程度に収まると試算され、検証段階の低コスト選択肢として位置づけられる。一方、スキャン画像の文字認識（OCR）や帳票・表の抽出が必要なら従来通りTextractを選ぶべきと明確に切り分けている。

S3内PDFを対話的に抽出する最小構成が公開された

AWSが2026年6月26日、Amazon S3に保管したPDFからテキストをリアルタイムに取り出すサーバの構築手順を、機械学習ブログで公開した。鍵になるのはMCP（モデルコンテキストプロトコル＝AIアプリと外部データを安全につなぐ共通規格）の採用である。

In this post, you’ll build a server that extracts text from PDF files in Amazon S3 in real time. This protocol-based approach provides programmatic document access.
出典: Build interactive PDF text extraction from Amazon S3

引用の「protocol-based approach（規格に沿った接続方式）」がMCPを指す。構成は4要素にまとまる。コマンドラインからの問い合わせ入力、MCP通信層、PDF処理を担うサーバ、文書を置くS3。そして要素間の権限はIAM（誰が何にアクセスできるかの権限制御）で絞る。多くの企業は文書をすでにS3に貯めているが、テキストを取り出すには独自スクリプトを書くか、まとめて処理する一括処理（バッチ）の完了を待つ必要があった。本手法はその中間に位置し、対話的な即時アクセスを提示する。

月1万ページで約2.5ドル対23〜28ドル、Textractとの使い分け

コスト差がこの記事の判断材料になる。記事の試算では、月1万ページを想定した場合、MCP方式は保管・転送費だけで約2.5ドル、文書処理サービスのAmazon Textractを使う方式は約23〜28ドルとされた（いずれも参考値）。文字埋め込み済みPDFという前提に限れば、処理コストが約10倍開く計算になる。

ただし安さには適用条件がある。MCP方式が成立するのは、テキスト情報がすでにPDFに埋め込まれている文書だけである。スキャンした紙の画像から文字を読み取る処理（OCR）や、帳票・表の構造を抽出する処理が必要なら話は別だ。

you’ll compare this approach with Amazon Textract so you can decide which tool fits your workload.
出典: Build interactive PDF text extraction from Amazon S3

記事自身が「どちらが自分の作業に合うか比較して決められる」と書く通り、用途で割り切る設計だ。OCRや帳票抽出が要るならTextract、文字埋め込み済みPDFへの軽量なアクセスならMCP方式、という線引きである。

構築に必要な前提と着手の手順

着手前に揃える前提は記事に明記されている。読者が自分の環境で動かすには次が要る。

Python 3.10以降を用意する。
AWS CLI（AWSをコマンドラインから操作するツール）を設定する。
Kiro CLI を導入する。
Pythonパッケージとして boto3（AWS操作用ライブラリ）、PyPDF2（PDFからテキストを読むライブラリ）、mcp（MCP通信用パッケージ）を入れる。

そのうえで、前章の4要素（CLI入力・MCP通信層・PDF処理サーバ・S3保管）を組み、要素間のアクセスをIAMで絞る。記事は構成の説明、サーバの設定、対話的な文書問い合わせの実行までを順に解説している。まず一つの文字埋め込み済みPDFで通し、想定通りテキストを取り出せるかを確認するのが現実的な出発点になる。