DeepSeek V4 아키텍처 심층 분석: MoE + CSA/HCA 하이브리드 어텐션과 백만 토큰 컨텍스트(출시됨)

DeepSeek V4는 2026년 4월 24일 공식 출시되었으며, MIT 라이선스로 완전히 오픈소스화되었습니다. 가중치는 Hugging Face에 공개되었습니다. 출시 전 이 모델은 FlashMLA 등 오픈 저장소에 엔지니어링 코드명 "MODEL1"으로 등장하여 아키텍처를 둘러싼 많은 논의를 불러일으켰습니다. 이제 공식 정보가 모두 공개되었으므로, 본 문서는 출시 전 추측을 하지 않고 실제 출시 사실에 기반하여 V4의 진짜 아키텍처를 분석합니다: MoE(전문가 혼합) + 하이브리드 어텐션(CSA + HCA) 이 어떻게 백만 토큰 컨텍스트에서 극한의 효율을 실현하는지.

두 가지 버전: Pro 와 Flash

V4는 명확하게 포지셔닝된 두 가지 버전으로 출시되었습니다:

버전	총 파라미터	활성 파라미터	포지셔닝
DeepSeek-V4-Pro	1.6조(1.6T)	49B	고급 추론 및 에이전트 코딩
DeepSeek-V4-Flash	284B	13B	더 빠르고 저비용인 시나리오

두 버전 모두 MoE(Mixture-of-Experts, 전문가 혼합) 아키텍처를 채택합니다. MoE의 핵심은 모델이 방대한 총 파라미터 수(지식 저장)를 가지면서도 추론 시 토큰마다 그중 일부 전문가만 활성화(연산 절감)한다는 점입니다. 그래서 Pro는 총 파라미터가 1.6T이지만 토큰당 49B만 활성화하고, Flash는 총 284B에 활성 13B입니다. 이것이 바로 DeepSeek이 강력한 능력을 유지하면서 추론 비용을 극한까지 낮출 수 있는 기반입니다.

두 버전 모두 컨텍스트 윈도우는 100만(1M) 토큰(기본값)이며, 최대 출력은 약 384K 토큰입니다.

핵심 아키텍처: 하이브리드 어텐션(CSA + HCA)

V4의 가장 중요한 아키텍처 혁신은 출시 전 소문에 있던 어떤 "메모리 시스템"이 아니라, 두 가지 압축 어텐션 메커니즘을 결합한 하이브리드 어텐션 아키텍처입니다:

CSA(압축 희소 어텐션, Compressed Sparse Attention): 긴 시퀀스에서 진짜로 관련 있는 부분에만 정밀한 어텐션 연산을 수행하며, 희소화를 통해 연산에 참여하는 토큰 쌍을 대폭 줄입니다.
HCA(고도 압축 어텐션, Heavily Compressed Attention): 어텐션의 키-값 표현을 고도로 압축하여, 원거리 컨텍스트를 훨씬 낮은 메모리·연산 비용으로 접근 가능하게 유지합니다.

이 둘을 결합하는 공학적 목표는 명확합니다: 백만 토큰 컨텍스트를 "이론적으로 가능"에서 "비용적으로 실용 가능"으로 바꾸는 것입니다.

효율 이점(공식 데이터)

가장 리소스를 많이 소모하는 1M 컨텍스트 시나리오에서, V4의 하이브리드 어텐션은 두 가지 결정적인 이점을 제공합니다:

토큰당 연산량 ≈ V3.2의 27%: 동일한 길이에서 추론에 필요한 연산량이 대폭 감소합니다.
KV 캐시 메모리 ≈ V3.2의 10%: 긴 컨텍스트의 가장 큰 메모리 병목은 KV 캐시인데, V4는 이를 약 10분의 1로 압축합니다.

이는 동일한 GPU(또는 클러스터)가 이전 세대보다 훨씬 낮은 비용으로 100만 토큰 풀 컨텍스트를 실행할 수 있음을 의미합니다. 시퀀스가 길어져도 메모리와 연산 비용에 짓눌리지 않습니다. 이것이 V4가 초장문 컨텍스트를 기본 기능으로 만들고 API 가격을 극한까지 낮출 수 있는 근본적인 이유입니다.

여전히 실재하는 기술적 기반: FP8 와 MoE 라우팅

하이브리드 어텐션 외에도, V4는 DeepSeek이 일관되게 갖춰온 두 가지 공학적 우위를 계승·강화하며, 이는 출시 후에도 유효합니다:

FP8 혼합 정밀도

V4는 학습과 추론 모두에서 FP8 저정밀도 수치 형식을 광범위하게 사용합니다. 전통적인 FP16/bfloat16에 비해 FP8은 메모리 사용량과 대역폭 부담을 한층 줄이며, 정교하게 설계된 스케일링 전략과 결합하여 모델 품질을 유지하면서 처리량을 크게 향상시킵니다. 이는 DeepSeek이 V3 시리즈 이후 계속 다듬어온 능력이며, V4에서는 하이브리드 어텐션과 겹쳐져 토큰당 비용을 함께 낮춥니다.

MoE 전문가 라우팅

MoE의 효율은 라우팅 품질에 달려 있습니다——각 토큰을 가장 적합한 전문가에게 정확히 배정하는 것입니다. V4는 라우팅 전략과 부하 분산을 지속적으로 최적화하여, 1.6T(Pro)/284B(Flash)의 방대한 파라미터를 효율적이고 안정적으로 스케줄링하고, 전문가 부하 편중으로 인한 연산 낭비를 방지합니다.

참고: 출시 전 커뮤니티에서는 "Engram 메모리 시스템", "DeepSeek 희소 어텐션(DSA)을 단독 셀링 포인트로", "System 2 일시정지 사고" 등의 포장이 떠돌았습니다. 이들은 V4의 공식 확인된 아키텍처 특성이 아닙니다. V4가 저비용 초장문 컨텍스트를 실현하기 위해 실제로 사용하는 것은 위의 CSA + HCA 하이브리드 어텐션입니다.

V3 / V3.2 와의 비교

특성	DeepSeek-V3.2	DeepSeek-V4 (출시됨)	변화
아키텍처	MoE + MLA	MoE + 하이브리드 어텐션(CSA+HCA)	어텐션 메커니즘 개선
버전	단일 플래그십	Pro(1.6T/49B) + Flash(284B/13B)	2단계 라인업
컨텍스트	더 짧음	100만 토큰(기본값)	긴 컨텍스트가 기본이 됨
토큰당 연산량(1M)	기준	≈ V3.2의 27%	대폭 감소
KV 캐시 메모리(1M)	기준	≈ V3.2의 10%	대폭 감소
수치 정밀도	FP8 등	FP8(계승·강화)	지속적 최적화
라이선스	오픈소스	MIT(오픈소스)	오픈소스

V4는 단순히 "컨텍스트를 키운" 것이 아니라, 어텐션 메커니즘 수준에서 긴 컨텍스트의 비용 구조를 다시 작성하여, 백만 토큰을 비싼 실험적 능력에서 일상적으로 사용 가능한 기본 기능으로 바꾸었습니다.

실제 벤치마크 결과

출시 후 V4-Pro의 실측 벤치마크("예상/목표"가 아님):

벤치마크	점수	비고
SWE-bench Verified	80.6%	오픈 모델 최고, Gemini 3.1 Pro와 공동
LiveCodeBench Pass@1	93.5	실제 코딩 능력
Codeforces 레이팅	3206	경쟁 프로그래밍
MMLU-Pro	87.5%	종합 지식 추론
GPQA Diamond	90.1%	대학원 수준 과학 문제
GSM8K	92.6%	수학 응용 문제
Terminal-Bench 2.0	67.9%	터미널/에이전트 작업

SWE-bench Verified의 80.6%는 특히 중요합니다——이는 "실제 코드 저장소의 issue를 진짜로 수정할 수 있는가"를 측정하는 엄격한 지표이며, V4는 오픈 모델 중 최고 점수를 받아 폐쇄형 프런티어 모델 Gemini 3.1 Pro와 어깨를 나란히 합니다. 이는 V4가 아키텍처의 무게중심을 에이전트 코딩 + 100만 토큰 컨텍스트에 둔 포지셔닝과 완벽하게 일치합니다: 코드베이스 전체를 한 번에 로드한 뒤, 강력한 코딩 능력으로 파일을 가로질러 이해하고 수정하는 것입니다.

API 가격

약 75% 인하 후, V4의 가격은 장기적인 저수준에 있습니다:

버전	입력(100만 토큰당)	출력(100만 토큰당)
V4-Pro	$0.435	$0.87
V4-Flash	$0.14	$0.28

폐쇄형 프런티어 모델과 비교하면, V4는 동급 능력을 유지하면서 보통 약 5~30배 저렴하며, 대규모·긴 컨텍스트·에이전트 코딩 워크로드의 비용 구조를 근본적으로 바꿉니다.

사용 방법

V4는 지금 바로 사용할 수 있으며, 기다릴 필요가 없습니다:

chat.deepseek.com: 전문가 모드(Expert Mode)와 즉시 모드(Instant Mode)를 제공합니다.
공식 API: 모델 이름은 deepseek-v4-pro를 사용합니다. 단, 구형 모델 deepseek-chat과 deepseek-reasoner는 2026년 7월 24일에 폐기되므로 제때 마이그레이션하세요.
Atlas Cloud: V4 액세스도 제공합니다.

API 호출 예시(의사 코드):

# V4-Pro 호출, 100만 토큰 컨텍스트에 코드베이스 전체를 한 번에 로드
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "당신은 파일 간 리팩토링을 담당하는 시니어 엔지니어입니다."},
        {"role": "user", "content": whole_repo_as_text},  # 약 100만 토큰까지
    ],
)

결론

DeepSeek V4는 화려함이 아니라 실용성으로 차세대 오픈소스 플래그십을 정의합니다:

MoE 2버전 라인업: Pro(1.6T/49B)는 고급 추론과 에이전트 코딩용, Flash(284B/13B)는 고속·저비용용.
CSA + HCA 하이브리드 어텐션: 100만 토큰 컨텍스트에서 토큰당 연산량을 V3.2의 약 27%, KV 캐시 메모리를 약 10%로 낮춰, 초장문 컨텍스트를 비싼 실험에서 일상의 기본으로 바꿈.
강력한 코딩 능력: SWE-bench Verified 80.6%, 오픈 모델 최고, Gemini 3.1 Pro와 공동.
완전 오픈소스(MIT) + 매우 낮은 가격: Pro $0.435/$0.87, Flash $0.14/$0.28(100만 토큰당).

"MODEL1" 코드명의 시대는 끝났습니다. 정식 출시되어 즉시 사용 가능한 오픈 모델로서, V4는 "저비용 초장문 컨텍스트 + 에이전트 코딩"을 개발자의 손에 직접 전달합니다.

출처

다음은 DeepSeek의 공식 출시(2026-04-24) 및 관련 공개 정보입니다:

DeepSeek 공식 웹사이트
Hugging Face의 DeepSeek 오픈소스 가중치
chat.deepseek.com / 공식 API 문서 / Atlas Cloud

면책 조항: 모델 아키텍처와 가격은 DeepSeek의 공식 출시를 기준으로 합니다. 일부 서드파티 벤치마크 수치는 평가 업데이트에 따라 변경될 수 있습니다.

최종 업데이트: 2026년 4월 25일

DeepSeek V4 아키텍처 심층 분석: MoE + CSA/HCA 하이브리드 어텐션과 백만 토큰 컨텍스트(출시됨)

DeepSeek V4 아키텍처 심층 분석: MoE + CSA/HCA 하이브리드 어텐션과 백만 토큰 컨텍스트(출시됨)

두 가지 버전: Pro 와 Flash

핵심 아키텍처: 하이브리드 어텐션(CSA + HCA)

효율 이점(공식 데이터)

여전히 실재하는 기술적 기반: FP8 와 MoE 라우팅

FP8 혼합 정밀도

MoE 전문가 라우팅

V3 / V3.2 와의 비교

실제 벤치마크 결과

API 가격

사용 방법

결론

출처

DeepSeek 지금 체험하기