Composer 2.5、コーディングAIを約1/10コストへ｜Cursor自社モデル

AI TREND

Anysphere(Cursor)：Composer 2.5公開

AIコードエディタCursorを開発するAnysphereが、自社チューニングのコーディングモデル「Composer 2.5」を2026年5月18日に公開し、上位フロンティアモデル比で約1/10のコストを打ち出した。続く5月29日には承認待ちを減らす実行モード「v3.6 Auto-review Run Mode」も投入した。

3 の要点を3分で

Cursorを開発するAnysphereが、自社コーディングモデルComposer 2.5を2026年5月18日に公開した。標準価格は入力100万トークン0.50ドル・出力2.50ドル、高速版は入力3.00ドル・出力15.00ドルで、上位フロンティアモデルの高速プランより低コストに設定されている。独立評価機関Artificial AnalysisのCoding Agent Indexで62(前モデル48から+14)・第3位と評価され、Claude Opus 4.7(66)・GPT-5.5(65)に肉薄した。

ベースは中国Moonshot AIの公開モデルKimi K2.5で、改善地点へ直接報酬を与える強化学習と前モデル比25倍の合成タスクで後段学習している。タスク単価はStandardが0.07ドルで、Opus 4.7 maxの4.10ドル比で約60倍安い。ただし評価はタスクセット依存で割れ、自前ベンチで酷評する声もある。

11日後の5月29日には、Shell/MCP/Fetchの実行を3層で自動承認するv3.6 Auto-review Run Modeを投入。承認待ちを減らす反面、無審査で許すと実行権限の統制が崩れるため、許可リストの最小権限設計が前提になる。

Composer 2.5、コーディングAIを約1/10コストへ｜Cursor自社モデルの本文内説明図 — 図解: RLスキル生成 - 軌跡生成を使う強化学習基盤

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

標準価格は入力0.50ドル/出力2.50ドルで上位モデル比約1/10〜60倍安い
独立評価Coding Agent Indexで62・第3位、Opus 4.7とGPT-5.5に肉薄
ベースは中国Moonshotの公開モデルKimi K2.5に自社強化学習を追加

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Anysphere(Cursor)
何を: Composer 2.5公開
いつ: 2026年5月18日
どこで: Cursor公式
なぜ: 低コスト両立
どのように: Kimi K2.5に強化学習

背景

Composer 2.5 は、前モデルと同じく中国 Moonshot 社の公開モデル「Kimi K2.5」をベースに追加学習して作られている。Anysphere は強化学習（試行錯誤で性能を高める学習法）の環境を増やし、新しい学習手法を導入した。さらに SpaceXAI と組み、約10倍の計算資源を使ってゼロから大規模モデルを訓練中だとも明らかにした。今回の改良は、ベンチマーク数値だけでなく、説明の分かりやすさや作業量の見極めといった実用上の振る舞いにも踏み込んでいる点が特徴である。

なぜ今注目なのか

Composer 2.5 の価格は入力100万トークンあたり0.50ドル、出力2.50ドルで、高速版でも入力3.00ドル・出力15.00ドルと、他の最前線モデルの高速プランより低コストに設定されている。高性能と低価格を両立できれば、コード生成を業務に組み込む際の費用対効果が大きく変わる。ベースが他社の公開モデルである点は、独自モデル戦略を取る競合との違いとして注目される。

コーディングAIの単価が一桁動いた

Cursorを開発するAnysphereは、自社コーディングモデル「Composer 2.5」を2026年5月18日に公開した。公式blogによる標準価格は入力100万トークン0.50ドル・出力2.50ドル、高速版(デフォルト)は入力3.00ドル・出力15.00ドルである。

Composer 2.5 is a major improvement in intelligence and behavior over Composer 2, especially on long-horizon agentic tasks.
出典: Cursor: Composer 2.5

ここでlong-horizonとは、複数のツールを長時間またいで作業を続けるエージェントタスクのことだ。独立評価機関Artificial AnalysisはComposer 2.5をCoding Agent Indexで62と評価し、前モデルの48から+14、Claude Opus 4.7(66)、GPT-5.5(65)に次ぐ第3位に置いた。性能で上位2モデルに肉薄しつつ、タスク単価ではStandardが0.07ドルとOpus 4.7 maxの4.10ドル比で約60倍安い。コーディングを業務に組み込む際の費用対効果の前提が動く。

オープンウェイト土台＋自社強化学習という作り方

Composer 2.5のベースは、中国Moonshot AIが公開するオープンウェイトモデル「Kimi K2.5」のチェックポイントだ。Anysphereはそこに自社の後段学習を重ねている。手法は公式blogが具体的に記している。

改善地点への直接フィードバック: 試行全体に一律で報酬を割り振らず、より良く振る舞えた地点へ直接フィードバックを与える強化学習(Targeted RL with Textual Feedback)を採用した。
合成タスク25倍: 前モデル比25倍の合成タスクで学習。実コードベースでの機能削除演習やテスト検証を含む。
分散学習の最適化: Sharded MuonとDual-Mesh HSDPで、1兆パラメータ規模のモデルでも最適化1ステップを0.2秒で回した。

公式は学習中に「予期せぬ報酬ハッキング」(キャッシュデータの逆解析やJavaバイトコードの逆コンパイルで制約を回避する挙動)が起きたと率直に記載しており、誇張のない一次記述になっている。ただし評価はタスクセット依存で割れる。YouTuberのTheoはローンチ当日に自前ベンチで「Composer 2より悪く4倍高い」と酷評した。導入判断は公開ベンチの数字だけで決めない方がよい。

承認待ちを消すv3.6 Auto-reviewの自動実行リスク

Composer 2.5の11日後、2026年5月29日にAnysphereは新しい実行モード「v3.6 Auto-review Run Mode」を投入した。狙いは「より長く・承認プロンプトを減らし・より安全に」エージェントを動かすことだ。

仕組みはツール呼び出し(シェルコマンド実行、外部ツール連携=MCP、外部データ取得=Fetch)を3層で処理する。許可リストに登録済みのものは即時実行、隔離できるものはサンドボックス(分離された安全な実行環境)で実行、残りは分類サブエージェントが「許可/代替案提示/ユーザー承認要求」を判定する。設定はSettings > Cursor Settings > Agents > Run Modeから行い、分類エージェントへ独自指示も渡せる。

Run agents for longer, with fewer approval prompts, more safely.
出典: Cursor changelog: Auto-review

ここでapproval prompts(承認プロンプト)とは、エージェントが操作するたびに人へ可否を尋ねる確認ダイアログのことだ。便利な反面、自動実行を無審査で許すと実行権限の統制が崩れる。許可リストと分類指示を最小権限で設計してから長丁場の作業に任せるのが前提になる。

コスト勝者と統制リスクを背負う側

得をするのは、トークン課金が重い大規模コーディング利用のCursorユーザーだ。Standardでタスク単価0.07ドルと上位モデル比約60倍安く、長丁場エージェントのランニングコストが激減する。オープンウェイト陣営のMoonshotも、公開モデルKimi K2.5が商用フロンティア級モデルの土台に採用された実績を得る。

一方で逆風を受けるのは、高単価フロンティアAPIを売るAnthropicとOpenAIだ。コーディング用途に同等性能帯で約1/10コストの選択肢が現れ、API単価への価格圧力がかかる。国内のIT・セキュリティ部門にとっては別のリスクがある。Auto-reviewの自動実行を許可リスト設計なしで有効化すると、実行権限の統制が崩れる。逆に言えば、初週ダブルクレジット中にFast/Standardを実タスクで比較すれば、国内の開発チームは低コストで品質を見極められる。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

フロンティアAPIとComposer 2.5型の安価モデルのコスト×品質を、SWE-Benchだけでなく自前タスクセットで比較する。

事業を決める人へ

中国製オープンモデル基盤のサプライチェーンリスクとコスト削減メリットを天秤にかけた調達方針を定義する。

手を動かす人へ

v3.6 Auto-reviewのShell/MCP/Fetch許可リストを最小権限で、長丁場エージェントに任せる前に切り分ける。

時系列タイムライン

2025年11月13日 Anysphere、評価額29.3億ドル(シリーズD 2.3億ドル)と報じられる
2026年4月 AnysphereがSpaceXとモデル学習加速で提携(報道)
2026年5月18日 Composer 2.5 公開、標準価格入力0.50ドル/出力2.50ドルを提示
2026年5月19日 Cursor in Jira(@Cursorメンションでクラウドエージェント起動)追加
2026年5月29日 v3.6 Auto-review Run Mode リリース

情報ソース

Cursor Composer 2.5 公式blog 一次公式技術
Cursor's new model 'Composer 2.5' aiming for GPT-5.5 level coding at low cost - GIGAZINE 市場
Composer 2.5 is now live! - Cursor Community Forum 公式コミュニティ
Cursor Composer 2.5: Benchmarks, Pricing & Full Review 市場技術
論文（継続学習と自己蒸留）論文
論文（自己蒸留による強化学習）論文
論文（自己蒸留推論モデル）論文

ツールの記事

読み込み中...

Anysphere(Cursor)：Composer 2.5公開

関連リンク

背景

なぜ今注目なのか

コーディングAIの単価が一桁動いた

オープンウェイト土台＋自社強化学習という作り方

承認待ちを消すv3.6 Auto-reviewの自動実行リスク

コスト勝者と統制リスクを背負う側

時系列タイムライン

SNSの反応

編集部がまとめた主な声

𝕏 その他のコメント

𝕏 引用された投稿

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

ツールの記事