DeepSeek V4 はいかにして低コストな100万トークンコンテキストを実現したか：CSA + HCA ハイブリッドアテンション徹底解説

2026年4月24日、DeepSeek は DeepSeek V4 を正式に発表し、オープンソース化（MITライセンス）しました。提供される2つのバージョンは、ハイエンドな推論とエージェント型コーディングを狙う V4-Pro（総パラメータ1.6兆 / アクティブパラメータ49B）と、より高速・低コストな V4-Flash（総パラメータ284B / アクティブパラメータ13B）です。両者ともデフォルトで 100万（1M）トークン のコンテキストウィンドウに対応し、最大出力は約384Kトークンです。

「100万トークンコンテキスト」を高価な実験室向け機能から誰もが使える安価な能力へと変えた本当の立役者は、発売前に噂された何らかの「無限メモリシステム」（一時期 Engram と呼ばれましたが、それは発売前の噂上の名称に過ぎません）ではなく、V4 が実際に採用したハイブリッドアテンション・アーキテクチャ：CSA（圧縮スパースアテンション、Compressed Sparse Attention）+ HCA（高度圧縮アテンション、Heavily Compressed Attention）です。本記事はこの実際のメカニズムに焦点を当て、1Mコンテキストでいかに計算量とメモリを抑え込むのか、そしてそれが長文書・コードベース全体・長い会話の記憶にとって何を意味するのかを説明します。

長コンテキストの根本的ジレンマ

O(n²) アテンション複雑度：越えられない計算の壁

標準的な Transformer の自己アテンション機構の複雑度は O(n²) です（n はシーケンス長）。これは以下を意味します：

コンテキスト長	アテンション計算量	KVキャッシュメモリ（FP16）	推論レイテンシ
4Kトークン	1600万回の演算	約0.5 GB	約50ms
32Kトークン	10億回の演算	約8 GB	約400ms
128Kトークン	160億回の演算	約128 GB	約6秒
1Mトークン	1兆回の演算	約8 TB	約6分

コンテキストが4Kから1Mに拡張されると、計算量は約62,500倍に増加し、KVキャッシュのメモリも爆発的に膨張します。FlashAttention や Ring Attention などの最適化技術を採用しても、定数係数を削減するだけで、二次増加の本質は変わりません。だからこそ100万トークンコンテキストは長らく「計算リソースを払える者だけが遊べるゲーム」だったのです。

既存ソリューションの限界

スライディングウィンドウアテンション

# スライディングウィンドウの概念図（ウィンドウサイズ w）
# 各トークンは前後wトークンにのみ注目
アテンション範囲: [i-w, i+w]
複雑度: O(n·w)  # 線形だが、長距離依存関係を失う

スライディングウィンドウは複雑度を線形に低減しますが、長距離情報をキャプチャする能力を完全に失うという代償があります。章を跨いだ推論が必要な長文書タスクでは、これは致命的な欠陥です。

静的スパースアテンション

従来のスパースアテンションは事前定義されたスパースパターン（ローカル＋グローバルなど）を通じて計算量を削減しますが、2つの問題があります：

スパースパターンは静的であり、コンテンツに基づいて動的に調整できない
重要な情報がスパース化された位置に正確に落ちる可能性がある

検索拡張生成（RAG）

RAG は長文書をチャンクに分割し、ベクトル検索で関連セグメントを取得します。しかし、RAG は本質的に「外付け」システムです：

検索品質はエンベディングモデルに依存し、意味的損失が発生する
全体的な理解が必要なタスクを処理できない（例：本全体のテーマ分析）
チャンク境界の切断がコンテキストの一貫性を壊す可能性がある
システムの複雑さとレイテンシが増加する

V4 の答え：CSA + HCA ハイブリッドアテンション

DeepSeek V4 は上記のいずれの単一ソリューションも踏襲せず、MoE（混合エキスパート）の骨格の上に、相補的な2種類のアテンション機構を組み合わせた ハイブリッドアテンション・アーキテクチャ を構築しました。長距離情報を保持しながら、計算量とメモリを大幅に圧縮します。

CSA：圧縮スパースアテンション（Compressed Sparse Attention）

CSA が解決するのは「どのトークンにフル精度の計算量を割いて注目する価値があるか」という問題です。シーケンスを動的に圧縮ブロックに分割し、ブロックレベルの表現に対してコンテンツ駆動のスパース選択を行い、本当に関連する領域だけに精密なアテンションを展開します。

静的スパースアテンションとは異なり、CSA のスパース性は事前固定ではなく コンテンツ駆動の動的選択 です。これにより、重要な情報が固定スパースパターンの「死角」に落ちたために捨てられる、ということがなくなります。

HCA：高度圧縮アテンション（Heavily Compressed Attention）

HCA が解決するのは「KVキャッシュをシーケンス長とともに爆発させない方法」です。キー・バリュー表現を高度に圧縮し、メモリ内にはコンパクトな圧縮状態のみを保持することで、超長コンテキストの KVキャッシュメモリ使用量を極めて低く抑えます。

両者の協調による効果

CSA が「計算を少なく」（トークンあたりのアテンション計算量を削減）し、HCA が「保存を少なく」（KVキャッシュメモリを削減）します。両者が協調することで、V4 は1Mコンテキストにおいて公式発表の効率指標を達成します：

指標	ベースライン（V3.2）比	意味
トークンあたり計算量	約 27%	同じ長さのコンテキスト処理に必要な計算コストは3分の1未満
KVキャッシュメモリ	約 10%	同じ長さのコンテキストでメモリ使用量が約10分の1に

言い換えれば、100万トークンを処理する際、V4 のトークンあたり計算量は V3.2 の約27%、KVキャッシュメモリは V3.2 の約10%です。これはウィンドウを「無理やり大きくする」力技ではなく、アテンション機構そのものを再設計することによる構造的な節約です。

命名について：発売前、コミュニティは「Engram メモリシステム」や「DSA」といった名称で V4 の長コンテキスト機構を推測していましたが、4月24日の正式発表で採用されたのは CSA + HCA ハイブリッドアテンションです。本記事は正式発表の事実に基づきます。

従来の KVキャッシュ方式との比較

次元	標準フルアテンション + 完全KVキャッシュ	V4：CSA + HCA
アテンション計算複雑度	O(n²)	ほぼ線形（スパースブロック選択）
KVキャッシュメモリ	O(n)、長さに線形比例し係数も大きい	高度圧縮、ベースラインの約10%
スパースパターン	なし / 静的	コンテンツ駆動の動的スパース
長距離依存性	完全だが高価	重要な長距離情報を保持
100万コンテキストの実用性	計算/メモリコストが極めて高い	コスト構造が良好、価格も手頃

最も重要な違い：従来方式は「全部見るが高すぎる」か「コスト削減のために長距離情報を犠牲にする」かのどちらかでした。CSA + HCA は両極の間で工学的なバランス点を見つけたのです——100万トークンを跨ぐ重要な関連を保持しつつ、計算量とメモリを商用可能なレベルまで抑え込みます。

実際の価格：100万コンテキストを安価にする

効率の最終的な意味は価格に現れます。V4 の75%値下げ後の長期 API 価格は以下の通りです：

バージョン	入力価格（100万トークンあたり）	出力価格（100万トークンあたり）
V4-Pro	$0.435	$0.87
V4-Flash	$0.14	$0.28

クローズドソースのフロンティアモデル（GPT-5.4、Claude 4.6、Gemini 3.1 Pro）と比較すると、V4 は同等の長コンテキスト能力で通常約5〜30倍安価です。これは、本一冊まるごと、コードベース全体、数百ターンの会話履歴を一度にコンテキストに詰め込むことが、予算上の贅沢ではなく日常的に使える操作になることを意味します。

旧 deepseek-chat および deepseek-reasoner モデルは2026年7月24日に廃止されるため、deepseek-v4-pro / deepseek-v4-flash への移行を推奨します。アクセス方法には chat.deepseek.com（エキスパートモード / インスタントモード）、公式 API、Atlas Cloud があります。

実際のシナリオにおける意味

長文書処理

CSA の動的スパース性と HCA のメモリ圧縮のおかげで、V4 は数十万トークンに及ぶ長文書を単一のフォワードパスで丸ごと読み込めます。チャンク分割も外付け検索も不要です：

従来の方式： 文書を分割 → 個別に処理 → 結果を統合（深刻な情報損失）

V4 の方式： 全文を一度に読み込み → フルアテンションが重要な関連をカバー → グローバルな理解を維持

200ページの契約書レビュー、書籍全体の要約、クロスドキュメント引用の照合といったタスクでは、「全文を見る」こと自体が品質の保証であり、CSA + HCA が「全文を見る」ことを安価にします。

コードベース全体

中〜大規模のコードリポジトリ（数十万〜100万トークン超）を一度にコンテキストウィンドウに入れることで、モデルは完全なプロジェクト文脈の中でファイルを跨いだリファクタリング、バグの特定、エージェント型コーディングを実行できます。これこそが V4 が SWE-bench Verified で80.6%（オープンソースモデル最高、Gemini 3.1 Pro と並ぶ）を達成した現実的な基盤の一つです——長コンテキスト + 極致の効率 + 強力なコーディング能力の組み合わせです。

長い会話の記憶

マルチターン会話や長期協業のシナリオでは、1Mトークンコンテキストと低価格の組み合わせにより、モデルは以下が可能になります：

会話履歴を切り詰めたり要約圧縮したりせず、完全に保持する
数百ターン前に言及された詳細を正確に想起する
長時間の共同プログラミングで完全なプロジェクトコンテキストを維持する

強調すべきは、これは 長コンテキストウィンドウそのもの がもたらす能力であり、CSA + HCA の低コストによって支えられている点です——独立した「永続メモリデータベース」ではありません。

V4 主要ベンチマーク成績

V4-Pro の主流評価における実際の発表済み成績：

ベンチマーク	DeepSeek V4-Pro
SWE-bench Verified	80.6%（オープンソース最高、Gemini 3.1 Pro と並ぶ）
LiveCodeBench Pass@1	93.5
Codeforces レーティング	3206
MMLU-Pro	87.5%
GPQA Diamond	90.1%
GSM8K	92.6%
Terminal-Bench 2.0	67.9%

これらの成績は「100万トークンコンテキスト + 極致の効率」というストーリーを裏付けています。長コンテキストは孤立した売りではなく、V4 のエージェント型コーディングと複雑な推論能力を支えるインフラなのです。

技術的展望

CSA + HCA は LLM の長コンテキスト管理における実用的な方向性を示しています：計算リソースを積み上げてウィンドウを「無理やり大きくする」のではなく、アテンション機構を構造的に再設計することで、長コンテキストを計算量とメモリの両次元で手頃なものにします。100万トークンコンテキストの限界コストが十分に低くなれば、「関連する情報をすべて入れる」ことが、繰り返し天秤にかける工学的トレードオフではなく、デフォルトになるのです。

アーキテクチャの継続的な反復により、長コンテキストのコストはさらに下がる余地があります。そして V4 の CSA + HCA は、すでに「低コストな100万トークンコンテキスト」を概念から、今日使えて手の届く現実へと変えたのです。

この記事は、DeepSeek が2026-04-24に正式発表した V4 の情報（アーキテクチャ、コンテキスト、価格、ベンチマーク）に基づいて作成されています。一部の第三者ベンチマークデータは評価の更新に伴い変化する可能性があります。

DeepSeek V4 はいかにして低コストな100万トークンコンテキストを実現したか：CSA + HCA ハイブリッドアテンション徹底解説

DeepSeek V4 はいかにして低コストな100万トークンコンテキストを実現したか：CSA + HCA ハイブリッドアテンション徹底解説

長コンテキストの根本的ジレンマ

O(n²) アテンション複雑度：越えられない計算の壁

既存ソリューションの限界

V4 の答え：CSA + HCA ハイブリッドアテンション

CSA：圧縮スパースアテンション（Compressed Sparse Attention）

HCA：高度圧縮アテンション（Heavily Compressed Attention）

両者の協調による効果

従来の KVキャッシュ方式との比較

実際の価格：100万コンテキストを安価にする

実際のシナリオにおける意味

長文書処理

コードベース全体

長い会話の記憶

V4 主要ベンチマーク成績

技術的展望

DeepSeek を今すぐ体験