DeepSeek V4 アーキテクチャ徹底解説：MoE + CSA/HCA ハイブリッドアテンションと100万トークンコンテキスト(リリース済み)

DeepSeek V4は2026年4月24日に正式リリースされ、MITライセンスで完全にオープンソース化されました。重みはHugging Faceで公開されています。リリース前、このモデルはFlashMLAなどのオープンリポジトリにエンジニアリングコードネーム「MODEL1」として登場し、そのアーキテクチャをめぐって多くの議論を呼びました。今や公式情報が出揃ったため、本記事ではリリース前の推測を行わず、実際のリリースに基づいてV4の本当のアーキテクチャを解説します:MoE(混合専門家) + ハイブリッドアテンション(CSA + HCA) が100万トークンコンテキストでいかに極限の効率を実現するか。

2つのバージョン:Pro と Flash

V4は明確に位置づけられた2つのバージョンでリリースされました:

バージョン	総パラメータ	アクティブパラメータ	位置づけ
DeepSeek-V4-Pro	1.6兆(1.6T)	49B	ハイエンド推論とエージェント型コーディング
DeepSeek-V4-Flash	284B	13B	より高速・低コストなシナリオ

両バージョンともMoE(Mixture-of-Experts、混合専門家)アーキテクチャを採用しています。MoEの核心は、モデルが膨大な総パラメータ数(知識を格納)を持ちながら、推論時にはトークンごとにごく一部の専門家のみを活性化する(計算を節約する)点にあります。そのためProは総パラメータ1.6Tでもトークンあたり49Bしか活性化せず、Flashは総パラメータ284B・アクティブ13Bです。これこそ、DeepSeekが強力な能力を保ちながら推論コストを極限まで下げられる基盤です。

両バージョンともコンテキストウィンドウは100万(1M)トークン(デフォルト)、最大出力は約384Kトークンです。

コアアーキテクチャ:ハイブリッドアテンション(CSA + HCA)

V4の最も重要なアーキテクチャ革新は、リリース前の噂にあった何らかの「メモリシステム」ではなく、2つの圧縮アテンション機構を組み合わせたハイブリッドアテンションアーキテクチャです:

CSA(圧縮スパースアテンション、Compressed Sparse Attention):長いシーケンスにおいて、本当に関連する部分にのみ精密なアテンション計算を行い、スパース化によって計算に参加するトークンペアを大幅に削減します。
HCA(高度圧縮アテンション、Heavily Compressed Attention):アテンションのキー・バリュー表現を高度に圧縮し、遠距離のコンテキストをはるかに低いメモリ・計算コストで到達可能に保ちます。

この2つを組み合わせる工学的目標は明確です:100万トークンコンテキストを「理論上可能」から「コスト的に実用可能」へ変えることです。

効率面のメリット(公式データ)

最もリソースを消費する1Mコンテキストのシナリオにおいて、V4のハイブリッドアテンションは2つの決定的なメリットをもたらします:

トークンあたり計算量 ≈ V3.2の27%:同じ長さで、推論に必要な計算量が大幅に低下します。
KVキャッシュメモリ ≈ V3.2の10%:長コンテキストの最大のメモリボトルネックはKVキャッシュであり、V4はそれを約10分の1に圧縮します。

これは、同じGPU(またはクラスタ)が前世代よりはるかに低いコストで100万トークンのフルコンテキストを実行できることを意味します。シーケンスが長くなってもメモリと計算コストに押しつぶされません。これが、V4が超長コンテキストをデフォルト機能とし、API価格を極限まで下げられる根本的な理由です。

依然として実在する技術的基盤:FP8 と MoE ルーティング

ハイブリッドアテンションに加えて、V4はDeepSeekが一貫して持つ2つの工学的優位を継承・強化しており、これらはリリース後も有効です:

FP8 混合精度

V4は訓練と推論の両方でFP8低精度数値フォーマットを広く使用します。従来のFP16/bfloat16と比べ、FP8はメモリ使用量と帯域幅の負担をさらに削減し、綿密に設計されたスケーリング戦略と組み合わせることで、モデル品質を保ちながらスループットを大幅に向上させます。これはDeepSeekがV3シリーズ以来磨き続けてきた能力であり、V4ではハイブリッドアテンションと重なって、トークンあたりコストを共に押し下げます。

MoE 専門家ルーティング

MoEの効率はルーティング品質に依存します——各トークンを最も適した専門家に正確に割り当てることです。V4はルーティング戦略と負荷分散の最適化を継続し、1.6T(Pro)/284B(Flash)という膨大なパラメータを効率的かつ安定的にスケジューリングして、専門家の負荷偏りによる計算の無駄を回避します。

注:リリース前、コミュニティでは「Engramメモリシステム」「DeepSeekスパースアテンション(DSA)を単独のセールスポイントとする」「System 2の一時停止思考」といった包装が出回りました。これらはV4の公式に確認されたアーキテクチャ特性ではありません。V4が低コストの超長コンテキストを実現するために実際に使っているのは、上記のCSA + HCAハイブリッドアテンションです。

V3 / V3.2 との比較

特性	DeepSeek-V3.2	DeepSeek-V4 (リリース済み)	変化
アーキテクチャ	MoE + MLA	MoE + ハイブリッドアテンション(CSA+HCA)	アテンション機構の刷新
バージョン	単一フラッグシップ	Pro(1.6T/49B) + Flash(284B/13B)	2階層ラインナップ
コンテキスト	より短い	100万トークン(デフォルト)	長コンテキストがデフォルトに
トークンあたり計算量(1M)	ベースライン	≈ V3.2の27%	大幅に低下
KVキャッシュメモリ(1M)	ベースライン	≈ V3.2の10%	大幅に低下
数値精度	FP8 など	FP8(継続・強化)	継続的に最適化
ライセンス	オープンソース	MIT(オープンソース)	オープンソース

V4は単に「コンテキストを大きくした」のではなく、アテンション機構のレベルで長コンテキストのコスト構造を書き換え、100万トークンを高価な実験的能力から日常的に使えるデフォルト機能へと変えました。

実際のベンチマーク結果

リリース後のV4-Proの実測ベンチマーク(「予想/目標」ではない):

ベンチマーク	スコア	備考
SWE-bench Verified	80.6%	オープンモデル最高、Gemini 3.1 Proと並列
LiveCodeBench Pass@1	93.5	実際のコーディング能力
Codeforces レーティング	3206	競技プログラミング
MMLU-Pro	87.5%	総合的な知識推論
GPQA Diamond	90.1%	大学院レベルの科学問題
GSM8K	92.6%	数学の文章題
Terminal-Bench 2.0	67.9%	ターミナル/エージェントタスク

SWE-bench Verifiedの80.6%は特に重要です——これは「実際のコードリポジトリのissueを本当に修正できるか」を測る厳しい指標であり、V4はオープンモデルで最高スコアを獲得し、クローズドなフロンティアモデルGemini 3.1 Proと並んでいます。これは、V4がアーキテクチャの重心をエージェント型コーディング + 100万トークンコンテキストに置いた位置づけと完全に一致します:コードベース全体を一度に読み込み、強力なコーディング能力でファイルを横断して理解・修正するのです。

API 価格

約75%の引き下げ後、V4の価格は長期的な低水準にあります:

バージョン	入力(100万トークンあたり)	出力(100万トークンあたり)
V4-Pro	$0.435	$0.87
V4-Flash	$0.14	$0.28

クローズドなフロンティアモデルと比べ、V4は同等クラスの能力を保ちながら、通常およそ5〜30倍安価であり、大規模・長コンテキスト・エージェント型コーディングのワークロードのコスト構造を根本的に変えます。

使い方

V4は今すぐ利用可能で、待つ必要はありません:

chat.deepseek.com:エキスパートモード(Expert Mode)とインスタントモード(Instant Mode)を提供。
公式 API:モデル名は deepseek-v4-pro を使用。なお旧モデル deepseek-chat と deepseek-reasoner は2026年7月24日に廃止されるため、早めに移行してください。
Atlas Cloud:V4へのアクセスも提供。

API呼び出し例(疑似コード):

# V4-Pro を呼び出し、100万トークンコンテキストにコードベース全体を一度に読み込む
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "あなたはファイル横断のリファクタリングを担当するシニアエンジニアです。"},
        {"role": "user", "content": whole_repo_as_text},  # 約100万トークンまで
    ],
)

結論

DeepSeek V4は、派手さではなく実用性によって次世代のオープンソースフラッグシップを定義しています:

MoEの2バージョン構成:Pro(1.6T/49B)はハイエンド推論とエージェント型コーディング向け、Flash(284B/13B)は高速・低コスト向け。
CSA + HCAハイブリッドアテンション:100万トークンコンテキストでトークンあたり計算量をV3.2の約27%、KVキャッシュメモリを約10%に削減し、超長コンテキストを高価な実験から日常のデフォルトへ変える。
強力なコーディング能力:SWE-bench Verified 80.6%、オープンモデル最高、Gemini 3.1 Proと並列。
完全オープンソース(MIT) + 極めて低い価格:Pro $0.435/$0.87、Flash $0.14/$0.28(100万トークンあたり)。

「MODEL1」コードネームの時代は終わりました。正式にリリースされ、すぐに使えるオープンモデルとして、V4は「低コストの超長コンテキスト + エージェント型コーディング」を開発者の手に直接届けています。

情報源

以下はDeepSeekの公式リリース(2026-04-24)および関連する公開情報です：

DeepSeek 公式サイト
Hugging Face 上の DeepSeek オープンソース重み
chat.deepseek.com / 公式 API ドキュメント / Atlas Cloud

免責事項:モデルアーキテクチャと価格はDeepSeekの公式リリースに準じます。一部のサードパーティベンチマークの数値は、評価の更新により変化する可能性があります。

最終更新: 2026年4月25日

DeepSeek V4 アーキテクチャ徹底解説：MoE + CSA/HCA ハイブリッドアテンションと100万トークンコンテキスト(リリース済み)

DeepSeek V4 アーキテクチャ徹底解説：MoE + CSA/HCA ハイブリッドアテンションと100万トークンコンテキスト(リリース済み)

2つのバージョン:Pro と Flash

コアアーキテクチャ:ハイブリッドアテンション(CSA + HCA)

効率面のメリット(公式データ)

依然として実在する技術的基盤:FP8 と MoE ルーティング

FP8 混合精度

MoE 専門家ルーティング

V3 / V3.2 との比較

実際のベンチマーク結果

API 価格

使い方

結論

情報源

DeepSeek を今すぐ体験