DeepSeek V4

DeepSeek 性能ベンチマーク | SWE-bench、GPQA、MMLU-Pro vs GPT-5.4 / Claude 4.6 / Gemini 3.1 Pro

SWE-bench Verified、LiveCodeBench、GPQA Diamond、MMLU-Proなどの権威ベンチマークに基づき、DeepSeek V4の性能を全面的に評価

最新のDeepSeek V4は複数の権威ベンチマークでフロンティア級の表現を示し、SWE-bench Verified 80.6%（オープンソース最高、Gemini 3.1 Proと並ぶ）、LiveCodeBench 93.5、GPQA Diamond 90.1%、MMLU-Pro 87.5%を達成。GPT-5.4 / Claude 4.6 / Gemini 3.1 Proと並ぶ性能を、はるかに低いコストで提供します。以下のデータはすべて公式リリースと公開テスト結果から得られたものです。

🏆 2026年フロンティアモデルベンチマーク

DeepSeek V4 vs GPT-5.4 vs Claude 4.6 vs Gemini 3.1 Pro

ベンチマーク

DeepSeek V4

GPT-5.4

Claude 4.6

Gemini 3.1 Pro

SWE-bench Verified

80.6%

77.2%

80.8%

80.6%

GPQA Diamond

90.1%

N/A

MMLU-Pro

87.5%

N/A

コンテキストウィンドウ

1.05M

入力価格 / Mトークン

$0.435（Pro）/ $0.14（Flash）

$2.50

$5.00

$2.00

出力価格 / Mトークン

$0.87（Pro）/ $0.28（Flash）

$15.00

$25.00

$12.00

オープンソース

✅ MIT

❌

DeepSeek V4のデータは2026年4月24日の公式リリースによる実測値です。GPT-5.4、Claude 4.6、Gemini 3.1のデータは各社の公式発表によるものです。一部の第三者ベンチマーク数値は評価の更新により変動する場合があります。

💻 コード生成能力

エージェント型コーディング、コード生成、デバッグでの表現

SWE-bench Verified

実リポジトリのバグ修正を評価するエージェント型コーディングベンチマーク

DeepSeek

80.6%

GPT-3.5

77.2%

GPT-4

80.8%

DeepSeek V4はオープンソース最高（Gemini 3.1 Proと並ぶ）、GPT-5.4（77.2%）を上回り、Claude 4.6（80.8%）とほぼ互角

LiveCodeBench

最新のコンテスト問題で評価するPass@1コーディングベンチマーク

DeepSeek Leading

複数の学科を含む総合的な知識・科学推論能力

MMLU-Pro

高難度版MMLU、幅広い学科をカバーする多肢選択式テスト

DeepSeek Leading

DeepSeek

87.5%

GPT-3.5

—

GPT-4

—

DeepSeek V4はMMLU-Pro 87.5%でフロンティア級

GPQA Diamond

大学院レベルの科学問題（物理・化学・生物）

DeepSeek Leading

DeepSeek

90.1%

GPT-3.5

—

GPT-4

—

GPQA Diamond 90.1%、難関科学推論で高スコア

💰 コストパフォーマンス対比

フロンティア級の性能下、DeepSeek V4のコスト優位性が明らか

比較項目	DeepSeek V4-Flash	GPT-5.4	節約
入力価格	$0.14 / 1M tokens	$2.50 / 1M tokens	↓ 約18倍
出力価格	$0.28 / 1M tokens	$15.00 / 1M tokens	↓ 約54倍
V4-Pro 入力 / 出力	$0.435 / $0.87	$2.50 / $15.00	↓ 約6〜17倍
クローズドソースのフロンティア比	最安水準	GPT-5.4 / Claude 4.6 / Gemini 3.1	↓ 約5〜30倍安い

0.8-1.2秒

リクエスト送信から最初のトークンを受信するまでの時間

⚡

ストリーミング出力速度

30-50 tokens/秒

ストリーミング出力時に毎秒生成されるトークン数

⚡

バッチ処理スループット

10000+ tokens/秒

バッチ処理時の総スループット

💡 ヒント：実際の速度はネットワーク、リクエストパラメータなどの要因の影響を受けます

📊 総合評価

最新のDeepSeek V4はエージェント型コーディング、数学・科学推論、中国語理解などのタスクでフロンティア級の表現を示し、GPT-5.4 / Claude 4.6 / Gemini 3.1 Proと並ぶ性能を、クローズドソースより約5〜30倍安いコストで提供します。大量のAI呼び出しが必要なアプリケーションでは、DeepSeek V4は最もコストパフォーマンスの高い選択です。

コア強度

✅ トップクラスのコーディング能力、SWE-bench Verified 80.6%（オープンソース最高）

✅ LiveCodeBench 93.5、Codeforces 3206

✅ GPQA Diamond 90.1%、MMLU-Pro 87.5%、GSM8K 92.6%のフロンティア級推論

✅ クローズドソースのフロンティアモデルより約5〜30倍安い（V4-Pro $0.435/$0.87、V4-Flash $0.14/$0.28）

✅ 100万トークンコンテキスト、完全オープンソース（MIT）で自己ホスティング無料

使用推奨

⚠️ 一般対話能力はGPT-5.4よりわずかに低い

⚠️ 創作的執筆はGPT-5.4ほど豊かではない

⚠️ テキスト・コード・推論が中心で、マルチモーダルは主力ではない

Atlas CloudでDeepSeekを無料でテスト

自分で性能を体験し、ベンチマークデータを検証

無料で試す