長文を100倍読む再帰LM｜GPT-5比+130%、Claude Codeが製品化

AI TREND

MIT CSAIL研究陣：再帰言語モデル提案

MIT CSAILが、長文を「外部環境」として扱いAIが自分自身を再帰的に呼び出して処理する推論手法「再帰言語モデル(RLM)」を発表し、AnthropicがClaude Codeの新機能dynamic workflowsで同じ思想を製品化した。

3 の要点を3分で

MIT CSAILのAlex L. Zhang・Tim Kraska・Omar Khattabが発表した再帰言語モデル(RLM)は、長いプロンプトを「外部環境」として扱い、最上位のモデルが全文を直接読まずに、コードを書いて分割・検索し、子RLMを再帰的に呼び出す推論手法。ネイティブのコンテキストウィンドウを最大100倍(2桁)超える入力を処理できる。論文は2025年12月31日初版、v3が2026年5月11日。

ベンチマークでは対GPT-5の長文4タスクで、要約圧縮比+26%・自己呼び出し型コード実行比+130%・Claude Code比+13%(中央値)。OOLONG(13.2万トークン)ではRLM(GPT-5-mini)がGPT-5を約114%上回りAPIコスト同等。小型のRLM-Qwen3-8Bは素のQwen3-8B比+28.3%。

Anthropicは2026年5月28日、Claude Codeにdynamic workflows(研究プレビュー)を公開。最大16並列・最大1,000サブエージェントを起動し敵対的レビューで検証する仕組みで、論文の思想を製品化した。第一著者本人がOpus 4.8+dynamic workflowsを「初のRLM訓練事例」と公言している。

長文を100倍読む再帰LM｜GPT-5比+130%、Claude Codeが製品化の本文内説明図 — 図解: AIエージェント - MITCSAILが長文を外部環境として扱いAIが自分自身を再帰的

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

コンテキスト上限の最大100倍(2桁分)の入力を推論時に処理
対GPT-5の長文4タスクで自己呼び出し型コード実行比+130%・Claude Code比+13%
小型のRLM-Qwen3-8Bが素のQwen3-8B比+28.3%で大型に迫る

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: MIT CSAIL研究陣
何を: 再帰言語モデル提案
いつ: 2025年12月31日初版
どこで: arXiv
なぜ: 長文処理の上限突破
どのように: 自己再帰呼び出し

背景

大規模言語モデル（LLM）は一度に読める文章量に上限があり、長い文書を扱うときに精度が落ちる課題が知られています。これまでは要約で圧縮する手法や、コードを書いて処理する補助の仕組み（CodeActなど）、AnthropicのコーディングAI「Claude Code」のような外部足場が使われてきました。今回の研究は、それらと違い、AI自身が長文を断片に分けて自分を再帰的に呼び出す一般的な枠組みを示した点が新しいといえます。論文は2025年12月31日に投稿され、その後改訂されています。

なぜ今注目なのか

コンテキスト長の上限という、長文処理での根本的な制約を「推論時の工夫」で突破できる可能性を示した点が重要です。要約圧縮に対して約26%、自己呼び出し型コード実行に対して約130%、Claude Codeに対して約13%という精度向上を、同程度のコストで達成したと報告しており、長文処理の設計思想に影響を与えうるものです。

コンテキスト上限を「推論時の工夫」で100倍超える

MIT CSAILのAlex L. Zhang・Tim Kraska・Omar Khattabが発表した再帰言語モデル(RLM)は、LLMがネイティブのコンテキストウィンドウ(一度に読める上限)を最大2桁(100倍)超える入力を、推論時に処理する枠組みだ。仕組みはこうだ。長いプロンプトを「外部環境」として扱い、最上位のモデル(root LM、深さ0)はユーザーの質問だけを受け取る。本文はPythonの作業領域(REPL)の変数として保持され、root LMがコードを書いて先頭サンプルを覗く・正規表現で検索する・分割して子RLMを再帰起動する・要約する、を実行し、答えが固まったら最終回答を出力する。

LLM がネイティブのコンテキストウィンドウを最大2桁(two orders of magnitude)超える入力を推論時に処理する枠組み
出典: Recursive Language Models (arXiv)

つまりroot自身は全文を直接読まないので、文脈が肥大しない。既存のエージェントが「タスクの観点」で作業を分けるのに対し、RLMは「文脈の観点」で分け、分け方を完全にモデルの判断に委ねる(固定パターンを持たない)点が非自明だ。

GPT-5基準で+13〜130%、小型8Bが大型に迫る

数値が手法の実力を裏づける。対GPT-5の長文脈4タスクで、RLMは従来の要約圧縮(compaction)比+26%、自己呼び出し型コード実行(CodeAct)比+130%、AnthropicのコーディングAI「Claude Code」比+13%(ベンチ中央値)を記録した。個別タスクではさらに鮮明だ。

OOLONG(13.2万トークン)で、RLM(GPT-5-mini)がGPT-5を約114%(+34点超)上回り、APIコストは同等。26.3万トークンでも約49%(+15点超)上回った。
BrowseComp-Plus(1,000文書)では、RLM(GPT-5)のみが満点。再帰呼び出しを外したablation(機能除去版)は90%にとどまった。
ポストトレーニング版のRLM-Qwen3-8Bは、素のQwen3-8B比で平均+28.3%。

ただし著者自身が限界を明示している。各再帰呼び出しはブロッキング(順番待ち)でprefixキャッシュ(過去の計算結果の再利用)が効かず、数秒〜数分の遅延が出るため、総コスト・実行時間の強い保証はない。

各再帰呼び出しはブロッキングでprefixキャッシュ非対応、数秒〜数分の遅延がある
出典: 著者解説blog (Alex L. Zhang)

Anthropicが同じ思想を製品化した瞬間

論文の思想は約5ヶ月で実プロダクトに到達した。Anthropicは2026-05-28、Claude Codeに「dynamic workflows」(研究プレビュー、Opus 4.8と同時、v2.1.154以降)を公開した。Claudeがその場でオーケストレーション用のJavaScriptを生成し、バックグラウンドで実行、最大16並列・1回あたり最大1,000のサブエージェント(下請けエージェント)を起動して、独立エージェント同士の敵対的レビュー(互いの結果を突き合わせる検証)を経てから返す。中間結果は会話の文脈ではなくスクリプトの変数に保持されるため、Claudeの文脈には最終回答だけが載る——RLMの「rootは全文を読まない」思想とそのまま重なる。公式デモが実力を示す。

Bunのコード全面移行(Jarred Sumner): dynamic workflowsで約75万行のRustを生成し、既存テストスイートの99.8%をパス、初回コミットからマージまで11日、1ファイルにつき2レビュアーの並列検証を回した。大規模移行を自走できる水準を示す。
内蔵 /deep-research: 1つの問いを複数角度のWeb検索に展開し、ソースを相互照合・各主張を投票で検証して引用付きレポートを返す。製品に組み込まれた検証付き調査の実演だ。

論文第一著者のAlex Zhang本人が「Opus 4.8とdynamic workflowsは、フロンティアモデルが本格的にRLMとして訓練された最初の事例だろう」と公言している。Anthropicの公式blog・DocsはRLM論文に言及していないため、これは研究者本人が両者を結びつけた見解として扱う必要がある。

Claude makes a plan, runs hundreds of parallel subagents, and verifies its work before reporting back.
出典: dynamic workflows公式blog (Anthropic)

(上記は「Claudeが計画を立て、数百の並列サブエージェントを走らせ、結果を返す前に自分の作業を検証する」の意。)

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

自社の長文タスクで現行の要約圧縮方式とRLMの精度・APIコストを、公式実装のベンチ(OOLONG・BrowseComp-Plus)を基準に比較する。

事業を決める人へ

dynamic workflows導入時のトークン予算と許容レイテンシの上限を、公式が警告するトークン大量消費を踏まえて定義する。

手を動かす人へ

公式実装(pip install rlms)を1つの長文タスクで動かし、再帰呼び出しの遅延と回答精度を試す。

時系列タイムライン

2025年12月31日再帰言語モデル(RLM)論文初版がarXivに投稿
2026年5月11日 RLM論文 v3を改訂公開
2026年5月28日 AnthropicがClaude Codeのdynamic workflows(研究プレビュー)をOpus 4.8と同時公開
2026年5月30日 RLMとdynamic workflowsを結びつける議論がX上で話題化

SNSの反応

𝕏 その他のコメント

We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @Greenoaks, and @sequoia. This investment will help us advance our research and expand our capacity to meet growing demand for Claude.

Anthropic @AnthropicAI

𝕏 で見る →

Earlier this month, our run-rate revenue crossed $47 billion. This growth has been driven by organizations across many industries deploying Claude in their core operations, and by a growing number of people using it for their everyday work. Read more:

Anthropic @AnthropicAI

𝕏 で見る →

Also new in Claude Code: dynamic workflows (research preview). For the hardest tasks, Claude makes a plan, runs hundreds of parallel subagents, and verifies its work before reporting back. Think a migration touching hundreds of files. Read more:

Claude @claudeai

𝕏 で見る →

In Claude Code, Opus 4.8 makes calls like an experienced engineer without needing constant check-ins. It stays on track across long-running sessions and follows work through in your repo, so you can hand off a feature or a bug sweep while you focus on what's next.

Claude @claudeai

𝕏 で見る →