DeepSeek V4
DeepSeek バージョン履歴 | V1、V2、V3、R1、V4の進化タイムライン
2024年1月の初リリースから2026年のV4までのDeepSeekの完全な進化過程を目撃
DeepSeekは2024年1月の初リリース以来、各反復で重大な技術的突破をもたらしてきました。最初の67Bパラメータモデルから間もなくリリースされるV4まで、DeepSeekはオープンソースAIの境界を押し広げ続けています。
DeepSeek正式リリース
DeepSeek LLM
初のオープンソース版、7Bと67Bの2つのスケールを提供。67B版はコード、数学、推論タスクでLLaMA-2 70Bを上回ります。トレーニングデータ2Tトークン、中国チームの大規模モデル分野での実力を証明。
ビジョン言語モデルリリース
DeepSeek-VL
オープンソースマルチモーダルモデル、1024×1024高解像度画像理解をサポート。複数のビジョン言語タスクで優れた表現、DeepSeekエコシステムにマルチモーダル能力を追加。
MoEアーキテクチャの重大な突破
DeepSeek-V2
Mixture-of-Experts(MoE)アーキテクチャを採用、総パラメータ236B、アクティブパラメータ21B、128Kコンテキストをサポート。トレーニングコスト42.5%削減、KV cacheを93.3%削減、スループット5.76倍向上。
コードエキスパートモデル
DeepSeek-Coder-V2
コードタスクに特化したMoEモデル、338のプログラミング言語をサポート、128Kコンテキスト。追加で6Tトークンのコードデータをトレーニング、HumanEvalスコア89.5%。
フラッグシップモデルの性能飛躍
DeepSeek-V3
DeepSeek最強モデル、総パラメータ671B、アクティブパラメータ37B。14.8Tトークンをトレーニング、わずか2.788M H800 GPU時間のみ必要。トレーニングは安定しロールバックなし。
推論モデルリリース
DeepSeek-R1
複雑な推論に特化したモデル、数学、プログラミング、論理推論などのタスクで卓越した表現。
V4間もなくリリース(予定)
DeepSeek-V4
1兆パラメータのネイティブマルチモーダルAI、100万+トークンコンテキスト、Engramメモリシステム。SWE-bench 80%+を目標、GPT-5.4より10-25倍安い。
📊 主要指標の進化
| 指標 | V1 (2024.01) | V2 (2024.05) | V3 (2024.12) | V4 (2026.03) |
|---|---|---|---|---|
| 総パラメータ数 | 67B | 236B | 671B | 未定 |
| アクティブパラメータ | 67B | 21B | 37B | 最適化予定 |
| コンテキスト長 | 4K | 128K | 128K | 100万レベル(予想) |
| トレーニングデータ | 2T | 未定 | 14.8T | さらに多く予定 |
| コスト効率 | ベースライン | ↓ 42.5% | 継続的な最適化 | ↓ 30%以上(予想) |