実装ベンチでKimiがGPT-5.5に並んだ｜コスト1/5

実装・ノウハウ米国メガテック Artificial Analysis 05/31 00:34

AI TREND

Kimi・Qwen・GPT-5.5：実ベンチ全比較

評価機関Artificial Analysisと各社公称ベンチをまたいで、オープンウェイトのKimi K2.6・クローズドのQwen3.7-Max・GPT-5.5を比較したところ、実務に近いSWE-bench ProでKimiとGPT-5.5が58.6%で同点に並んだ一方、総合知能指数ではGPT-5.5=60が首位を保った。

3 の要点を3分で

評価機関Artificial Analysisの総合指標「知能指数」と各社公称ベンチを束ねて、オープンウェイトのKimi K2.6（2026年4月20日、1T MoE/256Kコンテキスト/Modified MIT）、クローズドのQwen3.7-Max（2026年5月20日、Alibaba Cloud Summitで発表、1Mコンテキスト）、GPT-5.5（2026年4月23日、1Mコンテキスト）を比較した。

結果はタスクで割れた。実務に近いSWE-bench ProではKimiとGPT-5.5がともに58.6%で同点、Qwenが60.6%で僅差リードと団子状態。一方、総合知能指数はGPT-5.5=60 > Qwen=57 > Kimi=54で、難問推論のGPQA DiamondもGPT-5.5=93.6%が最上位とクローズド優位が残る。Terminal-Benchの見かけ差（82.7対66.7）は計測ハーネスが異なるため横並び比較できない。

構造的に効くのは価格差だ。Kimiの単価は$0.95/$4.00、GPT-5.5は$5/$30で、実装タスクなら約1/5。「最高の総合知能が要らない作業」ではオープンに寄せる合理性が生まれた。一方Qwenは最新旗艦をクローズド化し、オープン採用の候補からは外れた。

実装ベンチでKimiがGPT-5.5に並んだ｜コスト1/5の本文内説明図 — 図解: 実ベンチ全比較 - 評価機関ArtificialAnalysisと各社公称ベンチ比較

押さえるポイント

この変化で何が要点か。図解と出典つきで一目で。

実装ベンチSWE-bench ProでオープンのKimiがGPT-5.5と58.6%同点
Qwen3.7-Maxが60.6%で僅差リード、3モデルがほぼ団子状態
総合知能指数はGPT-5.5=60>Qwen=57>Kimi=54でクローズドが優位

5W1Hでサクッと理解

構造化された事実を最初に。誰が何をいつどこでなぜどのように。

誰が: Kimi・Qwen・GPT-5.5
何を: 実ベンチ全比較
いつ: 2026年5月時点
どこで: Artificial Analysis
なぜ: 性能とコストの両立
どのように: 10種合成の総合指標

背景

知能指数は、特定分野に偏った強みだけで高評価が出ないよう、10種類の評価を合成して1つのスコアにまとめた指標である。含まれる評価には、実務に近い課題集（GDPval）、通信サポート対応の対話評価、コマンド操作の難問テスト、科学計算コード生成、長文読解、専門知識、指示追従、人類最後の試験（Humanity's Last Exam）、大学院級の物理・化学・生物問題（GPQA Diamond）などがある。すべての評価はArtificial Analysisが独自に実施している。現在518モデルが計測対象となっており、結果ページではスコアに加えて消費トークン量やコストとの比較も確認できる。

なぜ今注目なのか

上位は1〜2点差の僅差で並んでおり、最上位モデルの実力が拮抗していることを示している。スコアだけでなく、同じ評価を回すのにかかるトークン量やコストも併記されているため、性能と費用のバランスでモデルを選ぶ判断材料になる。単一ベンチの宣伝値ではなく、独立機関が10種を合成して測る指標である点が、調達・比較の物差しとして注目される。

実装ベンチでKimiがGPT-5.5に並び、総合では負けた

最も汚染が少なく実務に近い実装ベンチ、SWE-bench Proで、オープンウェイトのKimi K2.6とGPT-5.5がともに58.6%で並んだ。Alibabaのクローズドモデル、Qwen3.7-Maxが60.6%で僅差リード——3モデルはほぼ団子である。「現実的なGitHub課題の解決」ではオープン勢がクローズドフロンティアに並んだ、というのがこの比較最大の論点だ。

ただし結果はタスクで割れる。評価機関Artificial Analysisが10種の難関評価を合成した総合指標「知能指数」では、GPT-5.5=60 > Qwen=57 > Kimi=54 と、推論幅・汎用性でクローズドが依然リードする。Kimiはオープンウェイト最高位だが、GPT-5.5に6ポイント差がある。

一方総合知能指数（Artificial Analysis）では GPT-5.5=60 > Qwen=57 > Kimi=54 と、推論幅・汎用性ではクローズドが依然リード
出典: Artificial Analysis 知能指数

ここでの知能指数とは、数学・科学・コーディング・推論をまたぐ難関評価をまとめて1スコアにした総合指標のこと。難問推論を測るGPQA Diamond（大学院級の物理・化学・生物問題）でもGPT-5.5=93.6%が最上位、Qwen 92.4%、Kimi 90.5%とクローズド優位が順当に出ている。つまり「実装は並んだ、難問推論の幅は上が残る」というのが現時点の構図だ。

数字の見かけ差にだまされる落とし穴：計測ハーネスを切り分ける

Terminal-Bench 2.0（コマンド操作の難問テスト）では、GPT-5.5=82.7%、Qwen=69.7%、Kimi=66.7%と見かけの差が大きい。しかしGPT-5.5の82.7%はOpenAI自社の計測ハーネス（評価を回す実行環境）、Qwen/Kimi側はTerminusという別ハーネスで測られている。実行環境が違えば数字は横並びにできない。差が大きく見えても、それが実力差なのか計測条件の差なのかは現時点で切り分けられない。

GPT-5.5のSWE-bench Verified（〜82.6%）も独立スニペット由来で公式ページ未確認の数字だ。公称値には各社の自己申告が混じるため、独立機関（Artificial Analysis）や公式リーダーボードとの突合が前提になる。

DeepLearning.AIのThe Batchは「Kimi K2.6はQwen3.6 Max / DeepSeek V4と互角、クローズド最上位の僅差手前」と中立に整理している。すべて2026年5月時点の値であり、SWE-bench Proは58〜61で実質団子——「圧勝」と書ける状況ではない。

誰がコスト1/5の恩恵を得て、誰が調達前提の見直しを迫られるか

勝者の筆頭は、コスト最適化を狙う実装現場だ。Kimi K2.6の単価は入出力で$0.95/$4.00、GPT-5.5は$5/$30——実装タスクなら約1/5のコストで同点品質に届く。GitHub課題の自動解決のような「最高の総合知能が要らない作業」では、オープンに寄せる経済合理性が生まれた。

一方、難問推論や汎用品質を最優先する用途では、GPQA Diamond=93.6%・知能指数=60のGPT-5.5が依然優位だ。両者は競合ではなく、タスク分布で使い分ける関係になった。

再考を迫られるのは「クローズド一択＝安心」という調達前提と、「最新ベンチ1本で優劣を断定」する評価運用だ。結果がタスクで割れる以上、単一指標の選定は成り立たない。なおAlibabaは最新旗艦のQwen3.7-Maxをクローズド化（HuggingFace非公開）しており、性能は頂点級でもオープン採用の候補からは外れた。「中国系＝オープン」という前提も崩れつつある。

今やるべきこと

立場別、明日から動ける一手。

技術を選ぶ人へ

自社タスクを実装系（SWE-bench Pro近接）と難問推論系（GPQA・AIME）に分け、前者はKimiの単価、後者はGPT-5.5の精度を比較する。

事業を決める人へ

中国系オープンモデル採用の可否を、Kimiのライセンス（Modified MIT・商標条項）とデータを自社ホストできるかの観点で定義する。

手を動かす人へ

公称値を鵜呑みにせず、自社リポジトリ課題でSWE-bench風の成功率と、Terminal-Benchは同一ハーネス条件での再現を測る。

時系列タイムライン

2026年4月20日 Moonshot AIがKimi K2.6を公開（1T MoE/256Kコンテキスト/Modified MITのオープンウェイト）
2026年4月23日 OpenAIがGPT-5.5を発表（1Mコンテキスト、API/Codex/ChatGPTで提供）
2026年5月20日 AlibabaがAlibaba Cloud SummitでQwen3.7-Maxを発表（1Mコンテキスト、クローズドウェイト）
2026年5月31日 Artificial Analysisと各社公称ベンチを横断した3モデルの実ベンチ比較が公開・話題化

情報ソース

Artificial Analysis 知能指数（Intelligence Index）一次公式技術市場
Introducing GPT-5.5 | OpenAI 公式技術
GPT-5.5 Model | OpenAI API 公式技術
GPT-5.5 システムカードベンダー資料
Daily Tasks.docx データセット
Introducing GPT-5 | OpenAI ベンダー資料
GPT-5.5 Instant: smarter, clearer, and more personalized | OpenAI ベンダー資料
Introducing GPT-5.2 | OpenAI ベンダー資料

実装・ノウハウの記事

読み込み中...

Kimi・Qwen・GPT-5.5：実ベンチ全比較

関連リンク

背景

なぜ今注目なのか

実装ベンチでKimiがGPT-5.5に並び、総合では負けた

数字の見かけ差にだまされる落とし穴：計測ハーネスを切り分ける

誰がコスト1/5の恩恵を得て、誰が調達前提の見直しを迫られるか

時系列タイムライン

SNSの反応

編集部がまとめた主な声

𝕏 引用された投稿

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

実装・ノウハウの記事