DeepSeek V4 전체 사양: 1.6T MoE, CSA+HCA, 100만 토큰 컨텍스트 (2026년 출시 완료)

2026년 4월 24일, DeepSeek은 DeepSeek V4 프리뷰 버전을 정식 출시하고 MIT 라이선스로 Hugging Face에 가중치를 공개했습니다. 그동안 커뮤니티에 떠돌던 각종 추측은 이제 마무리되었습니다. V4는 "무한 메모리"나 "네이티브 멀티모달"로 승부하는 것이 아니라, 에이전트 코딩 능력, 100만 토큰의 장문 컨텍스트, 그리고 극한의 추론 효율을 핵심으로 오픈소스 프론티어 모델의 가성비를 재정의했습니다. 본 문서에서는 공식 출시 정보를 바탕으로 V4의 전체 사양을 분석합니다.

듀얼 버전 설계: Pro와 Flash

DeepSeek V4는 두 가지 버전을 동시에 출시하여 각기 다른 연산량·비용 시나리오에 대응합니다:

버전	총 파라미터	활성 파라미터	포지셔닝
DeepSeek-V4-Pro	1.6조(1.6T)	49B	하이엔드 추론·에이전트 코딩
DeepSeek-V4-Flash	284B	13B	더 빠르고 저렴한 일상 워크로드

두 버전 모두 MoE(Mixture-of-Experts) 아키텍처를 채택하며, 기본으로 100만(1M) 토큰 컨텍스트 윈도우를 제공하고 최대 출력은 약 384K 토큰입니다. Pro는 가장 강력한 추론·코딩 능력을 목표로 하고, Flash는 높은 품질을 유지하면서 지연 시간과 비용을 대폭 낮춰 고동시성·응답 속도에 민감한 애플리케이션에 적합합니다.

단일 비교 수치가 필요할 때는 일반적으로 V4-Pro의 1.6T 총 파라미터 / 49B 활성 파라미터를 기준으로 합니다.

하이브리드 어텐션 아키텍처: CSA + HCA

V4의 진정한 효율 돌파구는 하이브리드 어텐션 아키텍처에 있습니다. 이는 두 가지 어텐션 메커니즘을 결합한 것입니다:

CSA(압축 희소 어텐션, Compressed Sparse Attention): 긴 시퀀스를 희소화하여 관련 있는 위치 간에만 어텐션을 계산함으로써 장문 컨텍스트의 연산량을 대폭 줄입니다.
HCA(고도 압축 어텐션, Heavily Compressed Attention): KV 표현을 고도로 압축하여 메모리 사용량을 크게 절감합니다.

이 두 가지를 결합하면 V4는 100만 토큰 컨텍스트를 처리할 때 **토큰당 연산량이 V3.2의 약 27%, KV Cache 메모리는 약 10%**에 그칩니다.

지표 (1M 컨텍스트)	DeepSeek V3.2	DeepSeek V4
토큰당 연산량	100%	약 27%
KV Cache 메모리	100%	약 10%
컨텍스트 윈도우	—	100만 토큰

이것이 바로 V4가 100만 토큰 컨텍스트를 극히 저렴한 가격에 제공할 수 있는 근본적인 이유입니다. 외부에 붙인 "메모리 데이터베이스"가 아니라 어텐션 메커니즘 자체의 구조적 효율 덕분입니다.

실제 가격: 오픈소스 가성비의 기준

V4의 API 가격은 출시 시점에 이미 75% 인하되어 장기 가격대로 진입했습니다:

모델	입력 가격(/100만 토큰)	출력 가격(/100만 토큰)
DeepSeek-V4-Pro	$0.435	$0.87
DeepSeek-V4-Flash	$0.14	$0.28
GPT-5.4	$2.50	$15.00
Claude 4.6(Opus)	$5.00	$25.00
Gemini 3.1 Pro	$2.00	$12.00

V4-Pro를 비공개 프론티어 모델과 비교하면 입력 가격은 약 5~12배 저렴하고 출력 가격은 약 14~29배 저렴합니다. V4-Flash는 더 저렴하며, 캐시 히트 할인을 적용하면 실제 비용은 더욱 낮아집니다. MIT 라이선스로 셀프 호스팅하는 사용자에게는 API 비용이 전혀 들지 않습니다.

벤치마크: 에이전트 코딩과 추론에서 전면적 선두

다음은 V4-Pro의 공개된 실제 벤치마크 점수이며, 출시 전의 "목표/예상"이 아닙니다:

벤치마크	DeepSeek V4-Pro
SWE-bench Verified	80.6% (오픈 모델 최고, Gemini 3.1 Pro와 공동)
LiveCodeBench Pass@1	93.5
Codeforces 레이팅	3206
MMLU-Pro	87.5%
GPQA Diamond	90.1%
GSM8K	92.6%
Terminal-Bench 2.0	67.9%

SWE-bench Verified의 **80.6%**는 오픈소스 모델 중 최고 점수로 Gemini 3.1 Pro와 공동이며, 실제 소프트웨어 엔지니어링 작업에서 V4가 최상위권에 진입했음을 보여줍니다. Codeforces 레이팅 3206, LiveCodeBench 93.5, Terminal-Bench 2.0 67.9% 등의 점수는 알고리즘 경쟁, 코드 생성, 터미널 에이전트 작업에서 V4의 강력함을 입증합니다.

오픈소스와 접근 방법

DeepSeek V4는 MIT 라이선스로 오픈소스화되었으며 가중치는 Hugging Face에 공개되어 있습니다. 이는 다음을 의미합니다:

완전 무료 상업적 이용: 기업은 추가 제한 없이 V4를 제품에 통합할 수 있습니다.
자유로운 수정과 배포: 연구자는 V4를 기반으로 파인튜닝, 증류, 2차 개발이 가능합니다.
로컬 배포: 자체 인프라에서 완전히 실행하여 데이터 프라이버시를 극대화할 수 있습니다.

V4에 접근하는 주요 방법:

chat.deepseek.com: Expert Mode(전문가 모드)와 Instant Mode(즉시 모드)를 제공.
공식 API: deepseek-v4-pro 등의 모델명을 사용 가능. 기존 deepseek-chat과 deepseek-reasoner는 2026년 7월 24일 퇴역될 예정입니다.
Atlas Cloud 등 서드파티 플랫폼: atlascloud.ai 는 보통 새로운 DeepSeek 모델을 가장 먼저 제공합니다.

결론: V4의 핵심 가치

DeepSeek V4의 출시는 오픈소스 프론티어 모델의 경쟁 초점을 명확히 했습니다:

듀얼 버전 설계: Pro(1.6T/49B)와 Flash(284B/13B)가 하이엔드 추론부터 저비용 워크로드까지 커버.
100만 토큰 컨텍스트: 장문 문서, 리포지토리 전체 코드, 다중 턴 에이전트 작업을 모두 처리 가능.
CSA + HCA 하이브리드 어텐션: 약 27% 연산량, 약 10% KV 메모리로 극한의 장문 컨텍스트 효율 실현.
에이전트 코딩 선두: SWE-bench Verified 80.6%, 오픈 모델 최고.
초저가 + MIT 오픈소스: 가성비와 개방성을 동시에 달성하여 AI 대중화를 견인.

V4는 더 이상 출시 전 소문에 있던 "무한 메모리"나 "네이티브 멀티모달"이라는 포장에 의존하지 않습니다. 견고한 아키텍처 효율과 실제 벤치마크 점수로, 오픈소스 모델도 프론티어에 설 수 있음을 증명했습니다.

출처

다음은 DeepSeek이 2026-04-24에 공식 발표한 정보입니다:

DeepSeek V4 공식 출시 발표 및 기술 설명
Hugging Face DeepSeek 조직 페이지(모델 가중치, MIT 라이선스)
chat.deepseek.com / 공식 API 문서 및 가격 페이지

면책 조항: 일부 서드파티 벤치마크 데이터는 평가 버전 업데이트에 따라 변경될 수 있습니다. 공식 및 각 리더보드의 최신 결과를 참조하시기 바랍니다.

최종 업데이트: 2026년 4월 25일

DeepSeek V4 전체 사양: 1.6T MoE, CSA+HCA, 100만 토큰 컨텍스트 (2026년 출시 완료)

DeepSeek V4 전체 사양: 1.6T MoE, CSA+HCA, 100만 토큰 컨텍스트 (2026년 출시 완료)

듀얼 버전 설계: Pro와 Flash

하이브리드 어텐션 아키텍처: CSA + HCA

실제 가격: 오픈소스 가성비의 기준

벤치마크: 에이전트 코딩과 추론에서 전면적 선두

오픈소스와 접근 방법

결론: V4의 핵심 가치

출처

DeepSeek 지금 체험하기