推論を1.69倍速く。AWSがP-EAGLE公開

AI TREND

AWS：P-EAGLE公開

AWSがLLM推論を高速化する投機的デコーディングの新手法「P-EAGLE（並列EAGLE）」を開発し、下書き単語を1回の処理でまとめて予測することで従来手法EAGLE-3比で最大1.69倍のスループット向上を実現、オープンソースとして公開した。

3 の要点を3分で

AWSがLLM推論を高速化する新手法P-EAGLE（並列EAGLE）をオープンソースとして公開した。投機的デコーディングは軽量な下書きモデルが次の単語を先読みし、本体モデルがまとめて検証する仕組みだが、代表的枠組みのEAGLEは下書き単語を1つずつ順に生成する構造的限界があった。先読みを深くするほど待ち時間が積み上がり、性能向上を相殺していた。

P-EAGLEは下書き単語を1回の処理でまとめて予測することでこの逐次段階を排除し、先読みの深さと処理回数を切り離す。NVIDIA B200上のベンチマークで、最新版EAGLE-3比最大1.69倍のスループット向上を達成した。

実装はvLLMの拡張で、Amazon SageMaker JumpStartが標準対応する。GPT-OSS-120B / GPT-OSS-20B / Qwen3-Coder-30B / Gemma-4-31B-ITの4モデルが事前設定済みで、独自コンテナや複雑な並列処理設定を管理せず設定変数（parallel_drafting）で有効化できる。本番運用するエンタープライズの推論コスト判断に直結する手法だ。

推論を1.69倍速く。AWSがP-EAGLE公開の本文内説明図 — 図解: P-EAGLE公開 - AWSがLLM推論を高速化する投機的デコーディングの新手法P-EAGLE

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

下書き単語の逐次生成という構造的ボトルネックを並列化で解消
NVIDIA B200上でEAGLE-3比最大1.69倍のスループット向上
GPT-OSS-120BなどSageMaker対応4モデルを設定変数で高速化

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: AWS
何を: P-EAGLE公開
いつ: 2026年6月17日
どこで: SageMaker AI
なぜ: 推論高速化
どのように: 下書き並列予測

背景

大規模言語モデルが大きく複雑になるにつれ、応答速度（レイテンシ）を抑えつつ処理量（スループット）を最大化することが課題となっている。これに対し「投機的デコーディング」という手法では、軽量な下書きモデルが次の単語を先読みし、本体モデルがまとめて検証することで高速化する。代表的な枠組みEAGLEは大きな高速化を達成したが、下書き単語を1つずつ順番に生成する構造的な限界があった。先読みを深くするほど下書きの待ち時間が積み上がり、性能向上を相殺してしまう。最新版EAGLE-3でも、この逐次的な下書きの制約は残っていた。

なぜ今注目なのか

P-EAGLEは下書き単語をすべて1回の処理でまとめて予測することで、逐次処理という根本的なボトルネックを解消した。先読みの深さと処理回数を切り離せるため、待ち時間を増やさずに深い先読みが可能になる。SageMaker上で複雑な並列処理設定や独自コンテナを管理せずに導入できる点が、本番運用するエンタープライズにとって意思決定上の利点となる。

下書きを1回でまとめ予測、EAGLE-3比1.69倍へ

AWSがLLM推論を高速化する新手法「P-EAGLE（並列EAGLE）」をオープンソースとして公開した。投機的デコーディングは、軽量な下書きモデルが次の単語を先読みし、本体モデルがまとめて検証することで処理を速める仕組みだ。代表的な枠組みEAGLEは大きな高速化を達成したが、下書き単語を1つずつ順番に生成する構造的な限界があった。

P-EAGLEはこの逐次的な下書き段階を排除し、下書き単語を1回の処理でまとめて予測する。先読みの深さと処理回数を切り離せるため、待ち時間を増やさずに深い先読みができる。

This post walks you through how to use P-EAGLE directly within Amazon SageMaker AI.
出典: Parallelize speculative decoding with P-EAGLE on Amazon SageMaker AI

引用の通り、AWSの解説記事はP-EAGLEをSageMaker内で直接使う流れを示している。NVIDIA B200というGPU上のベンチマークでは、従来手法EAGLE-3比で最大1.69倍のスループット（単位時間あたりの処理量）向上を達成した。

なぜ逐次の下書きが性能を相殺するのか

EAGLEの高速化は「本体モデルが下書きをまとめて検証する」点にある。だが下書き自体は1単語ずつ順に作るため、先読みを深くするほど下書き生成の待ち時間が積み上がる。最新版EAGLE-3でも、この逐次的な制約は残っていた。深く先読みするほど下書きの待ち時間が増え、せっかくの高速化を打ち消してしまう。

P-EAGLEは下書き単語をすべて1回の処理で同時に予測することで、この根本的なボトルネックを解消する。先読みの深さ（どこまで先を読むか）と処理回数（何回モデルを動かすか）が切り離されるため、深い先読みをしても下書きの待ち時間が比例して増えない。

この設計差が、B200上でEAGLE-3比最大1.69倍という数値に表れている。

SageMakerでの有効化のやり方

P-EAGLEはvLLM（大規模言語モデルの推論エンジン）の拡張として実装され、Amazon SageMaker AIから直接使える。AWSの解説記事は、対応モデルの選択から並列下書きの設定、本番用エンドポイントの展開までの流れを示している。

Amazon SageMaker JumpStartのカタログから対応モデルを選ぶ。事前設定済みなのはGPT-OSS-120B / GPT-OSS-20B / Qwen3-Coder-30B / Gemma-4-31B-ITの4モデルだ。
並列下書き（parallel_drafting）の仕様を設定変数で有効化する。
高度に最適化したリアルタイムのSageMaker AIエンドポイントとして展開する。

It will demonstrate how to select a compatible model from the SageMaker JumpStart catalog, configure the parallel drafting specifications, and deploy a highly optimized real-time SageMaker AI endpoint.
出典: Parallelize speculative decoding with P-EAGLE on Amazon SageMaker AI