DeepSeek V4が100万トークン対応、エージェント向け推論コスト27%削減で企業調達を変える

モデルオープンモデル・OSS HuggingFace公式ブログ 04/26 08:24

DeepSeekが2026年4月24日にプレビューリリースしたDeepSeek-V4は、1.6兆パラメータ（うち49Bを活性化するMoE構成）と100万トークンのコンテキストウィンドウを組み合わせた大規模言語モデルだ。

技術的な核心は新ハイブリッド注意機構にある。CSA（Chunked Sparse Attention）とHCA（Hybrid Chunk Attention）を組み合わせることで、前世代のV3.2と比べて推論FLOPsを27%削減し、KVキャッシュを10%にまで圧縮した。KVキャッシュの削減は長文脈処理時のGPUメモリ消費に直結するため、同一ハードウェアで扱える実効コンテキスト長が大幅に伸びる。

ベンチマーク面では、SWE Verified（コーディングエージェント評価）で80.6%を記録し、Anthropicの最上位モデルであるClaude Opus-4.6-Maxの80.8%とほぼ同等の水準に達した。Terminal Bench 2.0では67.9スコアを達成しており、長時間・多ステップのターミナル操作タスクへの適性も数値で示されている。

価格設定では、軽量版のV4-Flashが入力$0.14・出力$0.28（百万トークンあたり）という水準で提供される。エージェント用途では大量のトークンを消費するため、この価格差は月次コストに直接影響する。

ライセンスはMITで、商用利用・改変・再配布が明示的に許可されている。日本企業にとっては、クローズドAPIへの依存を避けてオンプレミスやプライベートクラウドに展開する際の法的根拠が明確になる点が重要だ。ただし中国企業が開発したモデルである点は、政府調達や金融・医療など規制の厳しい領域での採用審査において追加確認が求められる場面がある。

Claude CodeやOpenCodeなど主要エージェントフレームワークへの最適化が明示されており、既存のエージェント開発環境からバックエンドモデルを切り替える際の移行コストが低い点も、開発者コミュニティでの注目を集めている理由の一つだ。

押さえるポイント

注目1: 100万トークンコンテキストをオープンソースで実現——商用利用可能なMITライセンス
注目2: KVキャッシュをV3.2比10%に削減するCSA+HCA新アーキテクチャを実装
注目3: SWE Verified 80.6%でClaude Opus-4.6-Max（80.8%）と同等のコーディング性能

5W1Hでサクッと理解 誰が DeepSeek（中国AI企業） 
 何を V4プレビューリリース 
 いつ 2026年4月24日 
 どこで HuggingFace公式ブログ 
 なぜ エージェント向け長文脈需要 
 どのように MoE＋CSA+HCA新機構 

何が起きたか

要点DeepSeekが2026年4月24日、1.6兆パラメータ・100万トークンコンテキストウィンドウを持つMoEモデル『DeepSeek-V4』をプレビューリリースした。新ハイブリッド注意機構（CSA+HCA）でKVキャッシュをV3.2比10%に削減し、MITライセンスでオープンソース公開している。

3つの視点で読む

開発現場

CSA（Chunked Sparse Attention）とHCA（Hybrid Chunk Attention）の組み合わせにより、推論FLOPsをV3.2比27%削減しながら100万トークンの長文脈処理を実現した。KVキャッシュが10分の1になることで、長文脈推論時のGPUメモリ消費が大幅に下がり、同一ハードウェアで処理できるコンテキスト長の上限が実質的に引き上がる。Terminal Bench 2.0で67.9スコアを記録しており、長時間・多ステップのエージェントタスクに必要な文脈保持能力が数値で示されている。

事業判断

V4-Flashの価格（入力$0.14/百万トークン・出力$0.28/百万トークン）は、同等性能帯のOpenAI・Anthropicモデルと比較して大幅に低い水準に設定されており、エージェント用途で大量トークンを消費する企業の調達コスト計算を直接変える。MITライセンスによるオープンソース公開は、クローズドAPIへの依存を嫌う企業がオンプレミス・プライベートクラウド展開を選択する根拠になる。Claude CodeやOpenCodeへの最適化明示は、既存エージェントフレームワーク利用者がバックエンドモデルを切り替える際の移行コストを下げる。

リスク・ルール

MITライセンスでの公開により、モデルウェイトの商用利用・改変・再配布が明示的に許可される。日本の政府調達・医療・金融など、クローズドAPIの利用に制約がある領域でも、オンプレミス展開の選択肢として評価対象に入る。ただし中国企業が開発したモデルである点は、データ主権・安全保障の観点から調達審査で追加確認が求められる組織が存在する。

追い風と向かい風

追い風を受ける側

AIエージェント開発者（個人・スタートアップ）100万トークンコンテキストとV4-Flashの低価格により、長文脈エージェントの開発・運用コストを抑えながら高性能モデルを利用できる
Claude Code・OpenCode利用者DeepSeek-V4が両フレームワークへの最適化を明示しており、バックエンドモデルの選択肢が増える
オンプレミス展開を求める企業MITライセンスにより商用利用・改変が可能で、クローズドAPIを使わずに同等性能を自社環境で運用できる

向かい風を受ける側

OpenAI・Anthropic（API収益部門）V4-Flashの低価格設定がエージェント用途での価格比較の基準点を引き下げ、既存の価格帯の正当化が難しくなる
既存の長文脈特化クローズドモデル提供者100万トークンコンテキストがオープンソースで実現されたことで、長文脈処理を差別化要因として維持しにくくなる

今やるべきこと

技術判断 確認する DeepSeek-V4-ProとV4-FlashのCSA+HCAアーキテクチャ仕様（KVキャッシュ削減率・推論FLOPs削減率）を公式ドキュメントで確認し、自社の推論インフラ要件と照合する

事業判断 比較する V4-Flashの価格（入力$0.14/出力$0.28）を現在利用中のAPIの単価と比較し、月次トークン消費量ベースでのコスト差を記録する

実装・検証 試す Claude CodeまたはOpenCodeのバックエンドをDeepSeek-V4に切り替え、既存のエージェントタスクでSWE Verifiedスコア相当のコーディングタスクを実行して成功率と応答速度を測る

時系列タイムライン

2026年4月24日 DeepSeek-V4プレビューリリース。V4-ProおよびV4-Flashを公開
2026年4月26日 HuggingFace公式ブログにDeepSeek-V4の詳細技術解説記事が公開され、AI開発者コミュニティで広く拡散

情報ソース

DeepSeek-V4: a million-token context that agents can actually use 一次ソース公式技術

モデルの記事

読み込み中...

DeepSeek V4が100万トークン対応、エージェント向け推論コスト27%削減で企業調達を変える

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

関連リンク

時系列タイムライン

情報ソース

人気記事ランキング

モデルの記事

押さえるポイント

5W1Hでサクッと理解

何が起きたか

3つの視点で読む

追い風と向かい風

今やるべきこと

関連リンク

時系列タイムライン

SNSの反応

主な声

𝕏 その他のコメント

関連コンテンツ

関連キーワード

関連するAIトレンド記事

情報ソース

人気記事ランキング

モデルの記事