LLM、95ステップで精度20%に急落｜手順実行の壁

この研究は、LLMが推論ベンチマークで高い最終回答精度を出しても、プロンプトで指定された手順を最後まで忠実に実行できるとは限らない、という問題を正面から測定したものだ。

実験設計は意図的にシンプルで、単純な算術演算のみを使う。そのうえでアルゴリズムの長さと、途中で計算した中間変数を後段で参照する「ルックバック依存」の度合いを動かして難度を調整している。こうすることで、数学の難しさではなく「手順の長さと参照構造」だけが評価対象になる。

結果は、5ステップでの平均正答率61%が、95ステップで20%まで低下するというものだった。14モデル・55データセットという広い対象で観測されているため、特定モデルの癖ではなく、現行LLM全般に共通する性質として読める。

加えて、生成レベルの分析で失敗が5類型に整理されている点が実務上有用だ。回答欠落、早期回答、初回エラー後の自己修正、実行不足のトレース、幻覚的な余分ステップ。これらは生成ログを見れば検出できるため、評価パイプラインや本番監視に組み込みやすい。

日本の開発現場への含意は明確で、エージェントやワークフロー自動化の導入可否を判断する際、ベンチマーク総合スコアだけでなく、自社タスクの典型ステップ長における成功率と失敗パターンの内訳を測る必要がある。長手順は分割する、外部ツールで状態を持つ、といった設計判断の根拠として参照できる一次情報である。

LLM、95ステップで精度20%に急落｜手順実行の壁の本文内説明図 — 図解: ステップ増で精度急落 - 手順が長くなるほどLLMの実行忠実性は崩壊する

押さえるポイント

5ステップで平均61%あった正答率が、95ステップでは20%まで低下
失敗は「回答欠落」「早期回答」「自己修正」「実行不足」「余分ステップ幻覚」の5型
単純な算術のみを使い、アルゴリズム長と中間変数のルックバックで難度を制御

5W1Hでサクッと理解 誰が arXiv掲載の研究チーム 
 何を 手順実行能力の診断 
 いつ 2026年5月2日 
 どこで arXiv 
 なぜ 最終精度の限界を示す 
 どのように 14モデル55データ評価 

何が起きたか

要点arXivで公開された診断研究が、LLMは単純な算術手順でもステップ数が増えると正答率が急落することを14モデル・55データセットで定量的に示した。

3つの視点で読む

開発現場

推論ベンチマークの最終回答精度と、プロンプトで指定された手順を最後まで忠実に実行する能力は別レイヤーで評価する必要がある。5種類の失敗パターン（回答欠落・早期回答・自己修正・実行不足・余分ステップ幻覚）は、生成ログの粒度で検出できる観測可能な事象で、評価パイプラインに組み込める。

事業判断

LLMをワークフロー自動化やエージェントに組み込む製品で、ステップ数が伸びるタスクほど成功率が線形以上に落ちることが公開データで示された。長手順タスクを謳う製品は、手順長ごとの成功率曲線を提示しないと比較購買が成立しにくくなる。

リスク・ルール

業務手順の自動執行（金融計算、医療手順、監査ログ付き処理）で「最終答えが合っていれば良い」とする評価設計は不十分だと、実データで裏付けられた。手順の中間トレースを検証する監査要件と整合する論点。

追い風と向かい風

追い風を受ける側

評価・監査ツールのベンダー最終回答精度だけでなく中間トレースの忠実性を測るニーズが、公開データで裏付けられた
エージェント設計者手順を短く分割する、ツール呼び出しで外部化するといった設計判断に、根拠となる定量データが増えた

向かい風を受ける側

長手順を単発プロンプトで解くアーキテクチャ95ステップで20%という数値は、長アルゴリズムをモデル内部で回す方式の信頼性低下を示す
推論ベンチマークのスコアに依存したモデル選定高スコアモデルでも手順実行の忠実性は別途検証が必要と明示された

今やるべきこと

技術判断 確認する自社の本番プロンプトの平均ステップ数と、5/20/50/95ステップ帯での成功率が公開値とどう対応するかを確認する

事業判断 定義するエージェント製品の受け入れ基準を「最終回答精度」ではなく「ステップ長別成功率」と「5種類の失敗パターン発生率」で定義する

実装・検証 測る自社タスクで生成ログを採取し、回答欠落・早期回答・自己修正・実行不足・余分ステップ幻覚の5カテゴリに分類して発生率を測る

時系列タイムライン

2026年5月2日 arXivに診断研究論文が公開
2026年5月2日以降 14モデル・55データセットの評価結果（5ステップ61%→95ステップ20%）が共有される
2026年5月4日時点エージェント設計・評価設計の観点で研究コミュニティで参照され始める

情報ソース

When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models 一次情報研究公式
モデル配布: What is Huggingface? モデル配布
モデル配布: What is Spaces? モデル配布

学術の記事

読み込み中...

LLM、95ステップで精度20%に急落｜手順実行の壁

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

関連動画

情報ソース

人気記事ランキング

学術の記事

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

時系列タイムライン

SNSの反応

主な声

関連動画

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

学術の記事