DeepSeek V4

DeepSeek 性能测试 | SWE-bench、GPQA、MMLU-Pro 对标前沿模型

权威的性能对比数据

基于 SWE-bench Verified、GPQA Diamond、MMLU-Pro、GSM8K 等权威基准测试，对 DeepSeek V4 性能进行全面评价，对标 GPT-5.4、Claude 4.6、Gemini 3.1 Pro。所有数据来自官方发布和公开测试结果。

🏆 2026 前沿模型基准测试

DeepSeek V4 vs GPT-5.4 vs Claude 4.6 vs Gemini 3.1 Pro

基准测试

DeepSeek V4

GPT-5.4

Claude 4.6

Gemini 3.1 Pro

SWE-bench Verified

80.6%

77.2%

80.8%

80.6%

LiveCodeBench Pass@1

93.5

N/A

MMLU-Pro

87.5%

N/A

上下文窗口

1.05M

输入价格 / 百万tokens

$0.435 (Pro) / $0.14 (Flash)

$2.50

$5.00

$2.00

输出价格 / 百万tokens

$0.87 (Pro) / $0.28 (Flash)

$15.00

$25.00

$12.00

开源

✅ MIT

❌

DeepSeek V4 数据为官方发布（2026-04-24）的实测成绩。GPT-5.4、Claude 4.6、Gemini 3.1 数据来自各自官方发布。部分第三方基准数据可能随评测更新而变化。

💻 智能体编程能力

软件工程与编程任务的性能，包括仓库级修复、代码生成和调试

SWE-bench Verified

真实 GitHub 仓库的软件工程任务基准

DeepSeek

80.6%

GPT-3.5

77.2%

GPT-4

80.8%

V4 开源模型最高，与 Gemini 3.1 Pro 并列，超越 GPT-5.4 (77.2%)，与 Claude 4.6 (80.8%) 相当

LiveCodeBench Pass@1

实时编程竞赛题目，避免数据污染

DeepSeek 领先

DeepSeek

93.5

GPT-3.5

N/A

GPT-4

N/A

V4 在实时编程基准上表现顶尖

Codeforces

竞赛编程评分（Elo）

DeepSeek 领先

DeepSeek

3206

GPT-3.5

N/A

GPT-4

N/A

V4 竞赛编程评分达 3206

🧮 数学推理能力

数学问题求解和逻辑推理能力

GSM8K

小学数学应用题，8500 道题

DeepSeek 领先

DeepSeek

92.6%

GPT-3.5

N/A

GPT-4

N/A

V4 在基础数学推理上表现领先

Terminal-Bench 2.0

终端环境下的智能体任务执行

DeepSeek 领先

DeepSeek

67.9%

GPT-3.5

N/A

GPT-4

N/A

V4 在智能体终端任务上表现出色

📚 知识理解能力

知识问答和通用理解能力，对标前沿模型

MMLU-Pro

覆盖多学科的高难度知识理解基准

DeepSeek 领先

DeepSeek

87.5%

GPT-3.5

N/A

GPT-4

N/A

V4 知识理解对标前沿模型

GPQA Diamond

研究生级别科学推理难题

DeepSeek

90.1%

GPT-3.5

N/A

GPT-4

94.3%

V4 达 90.1%，Gemini 3.1 Pro 为 94.3%

🇨🇳 中文能力

中文理解和生成能力

中文综合能力

原生中文训练带来的理解与生成优势

DeepSeek 领先

DeepSeek

领先

GPT-3.5

N/A

GPT-4

N/A

V4 原生中文能力在中文任务上领先西方前沿模型

成本对比

价格和成本效益对比

项目	DeepSeek V4	GPT-5.4	节省
输入价格	$0.435 (Pro) / $0.14 (Flash) / 百万 tokens	$2.50 / 百万 tokens	↓ 约 5-18 倍
输出价格	$0.87 (Pro) / $0.28 (Flash) / 百万 tokens	$15 / 百万 tokens	↓ 约 17-54 倍

DeepSeek V4 比 GPT-5.4、Claude 4.6 等闭源前沿模型便宜约 5-30 倍，且开源（MIT）可免费自部署

真实场景测试

实际应用中的性能表现

速度测试

推理速度对比

⚡

首 Token 延迟

~100ms

快速响应

⚡

吞吐量

30-50 tokens/s

高效生成

基于 Atlas Cloud 部署的实际测试数据

总体评估

DeepSeek V4 已于 2026 年 4 月 24 日发布并开源（MIT），SWE-bench Verified 实测 80.6%（开源最高），在多个维度上达到或超过主流闭源 AI 模型，价格便宜约 5-30 倍，是最具性价比的开源 AI 模型。

优势

智能体编程 SWE-bench 80.6%，开源最高，对标 Claude 4.6、Gemini 3.1 Pro

推理与知识能力领先：GPQA Diamond 90.1%、MMLU-Pro 87.5%

成本极低，比闭源前沿模型便宜约 5-30 倍

完全开源（MIT），可本地部署

考虑因素

通用对话能力略低于 GPT-5.4

V4 以文本/代码/推理为主，多模态需求建议选其他模型

V4-Pro 完整模型本地部署需要企业级集群

在 Atlas Cloud 上体验完整性能

获得最优的 API 性能和用户体验

免费开始