혼합 전문가 모델(MoE) 아키텍처 원리: DeepSeek는 어떻게 적은 연산력으로 더 강력한 성능을 달성하는가

대규모 언어 모델(LLM) 경쟁에서 "더 큰 모델 = 더 강한 성능"이라는 것이 업계 상식처럼 여겨져 왔습니다. 하지만 DeepSeek는 완전히 다른 방식으로 다음을 증명했습니다 — 추론 시 모든 파라미터를 활성화하지 않아도 최고 수준의 성능을 달성할 수 있다. 이 뒤에 있는 핵심 기술이 바로 혼합 전문가 모델(Mixture of Experts, MoE) 아키텍처입니다.

본 글에서는 MoE 아키텍처의 작동 메커니즘을 원리 수준에서 심층 분석하고, DeepSeek의 혁신적인 구현을 설명하며, 이 아키텍처가 성능과 효율성 사이에서 혁명적인 균형을 달성할 수 있는 이유를 탐구합니다.

1. MoE 아키텍처 기본 원리

전통적인 Dense 모델의 병목현상

전통적인 Dense(밀집) 모델에서는 모든 입력 토큰이 모델의 전체 파라미터를 통과하여 계산됩니다. GPT-4를 예로 들면, 약 1.8조 개의 파라미터를 보유한다고 가정할 때, 모든 토큰 처리 시 이 1.8조 파라미터가 순전파 계산에 참여합니다.

Dense 모델 처리 흐름:
입력 토큰 → [전체 1.8T 파라미터가 계산에 참여] → 출력 확률 분포
계산량: 총 파라미터 수에 비례

이는 모델이 커질수록 추론에 필요한 계산 리소스(FLOPs)가 증가하고, 하드웨어 비용이 선형 또는 그 이상으로 증가함을 의미합니다.

MoE의 핵심 아이디어: 희소 활성화

MoE 아키텍처의 핵심 아이디어는 매우 직관적입니다 — 모든 지식이 모든 입력과 관련되는 것은 아닙니다. 수백 명의 전문가를 보유한 컨설팅 회사처럼, 특정 문제에 직면했을 때 가장 관련성 높은 몇 명의 전문가만 답변하면 되지, 모든 사람이 논의에 참여할 필요는 없습니다.

MoE 아키텍처에서는 Transformer의 피드포워드 네트워크(FFN) 레이어가 여러 병렬 "전문가" 네트워크로 대체됩니다:

MoE 레이어 구조:
입력 토큰 → 게이팅 네트워크(Router) → Top-K 전문가 선택
                                          ↓
                                선택된 전문가가 병렬 계산
                                          ↓
                                전문가 출력의 가중 결합 → 최종 출력

각 "전문가"는 본질적으로 독립적인 FFN 서브네트워크이며, 자체 가중치 행렬을 가지고 있습니다. 핵심은: 각 추론 단계에서 소수의 전문가만 활성화되고, 대부분의 전문가는 "휴면" 상태에 있다는 것입니다.

파라미터 수와 계산량의 분리

이것이 MoE의 가장 혁명적인 특성입니다. Dense 모델에서는 파라미터 수와 계산량이 강하게 결합되어 있습니다:

지표	Dense 모델	MoE 모델
총 파라미터 수	N	N (더 크게 가능)
토큰당 활성화 파라미터 수	N	N × k/E (N보다 훨씬 작음)
모델 용량	계산 예산에 제약됨	계산 예산을 훨씬 초과 가능

여기서 k는 매번 활성화되는 전문가 수, E는 총 전문가 수입니다. MoE는 "Dense 모델의 계산 비용으로 Dense 모델을 훨씬 능가하는 모델 용량을 실현"합니다.

2. 게이팅 네트워크(Gating Network)의 작동 원리

게이팅 네트워크는 MoE 아키텍처의 두뇌로, 각 토큰을 어떤 전문가에게 보낼지 결정합니다.

기본 게이팅 메커니즘

가장 간단한 게이팅 네트워크는 선형 변환과 Softmax의 조합입니다:

게이팅 스코어 G(x) = Softmax(W_g · x)

여기서:
- x는 입력 토큰의 은닉 상태 벡터
- W_g는 게이팅 네트워크의 학습 가능한 가중치 행렬
- G(x)는 각 전문가의 선택 확률을 출력

그런 다음 확률이 가장 높은 Top-K개의 전문가가 선택됩니다:

최종 출력 = Σ(i∈Top-K) G_i(x) · Expert_i(x)

라우팅 전략의 진화

초기 MoE는 Top-1 라우팅(전문가 1개만 선택)을 사용했으나, 심각한 정보 손실을 초래했습니다. 현대 MoE는 일반적으로 효율성과 품질의 균형을 위해 Top-2 이상의 전문가를 사용합니다:

Top-1 라우팅: 계산 효율성은 최고이나, 정보 활용률이 낮음
Top-2 라우팅: 주류 선택, 효율성과 품질의 균형이 우수
DeepSeek의 세분화 라우팅: 더 많은 소형 전문가를 사용하여, 256개 중 8개의 전문가를 각 토큰마다 선택

노이즈 주입과 탐색

게이팅 네트워크가 항상 같은 소수의 전문가만 선택하는 것을 방지하기 위해(다른 전문가가 훈련되지 않는 문제), 일반적으로 게이팅 스코어에 노이즈를 주입합니다:

G(x) = Softmax(W_g · x + ε)
여기서 ε ~ N(0, σ²)는 가우시안 노이즈

이 노이즈 주입 메커니즘은 훈련 단계에서 "탐색"을 장려하여, 모든 전문가에게 훈련될 기회를 제공합니다.

3. DeepSeek의 MoE 혁신

총 파라미터 671B, 토큰당 37B만 활성화

DeepSeek-V3의 아키텍처 설계는 MoE의 모범입니다:

총 파라미터 수: 671B (6,710억)
토큰당 활성화 파라미터 수: 37B (370억)
활성화 비율: 약 5.5%
전문가 수: 256개 라우팅 전문가 + 1개 공유 전문가
토큰당 활성화 전문가 수: 8개 라우팅 전문가 + 1개 공유 전문가

DeepSeek-V3 MoE 레이어:
입력 토큰 → 공유 전문가 (항상 활성화)
          → 게이팅 네트워크 → 256개 라우팅 전문가에서 8개 선택
                                        ↓
                       공유 전문가 출력 + 8개 라우팅 전문가 가중 출력
                                        ↓
                                  결합 → 최종 출력

공유 전문가 메커니즘

DeepSeek가 도입한 "공유 전문가"는 중요한 혁신입니다. 라우팅 전문가와 달리, 공유 전문가는 모든 토큰에 대해 활성화되어 범용 언어 지식을 포착합니다. 그 이점은:

전문가 간 중복 감소: 범용 지식은 공유 전문가가 통합 처리하여, 라우팅 전문가는 특정 영역에 전념 가능
훈련 안정성 향상: 라우팅에 편향이 있어도, 공유 전문가가 기본적인 출력 품질을 보장
전문가 붕괴 위험 감소: 라우팅 전문가의 부담을 분산하여 특정 전문가의 과도한 사용을 완화

세분화 전문가 분할

전통적인 MoE는 보통 8~16개의 큰 전문가를 사용합니다. DeepSeek는 다른 전략을 선택했습니다: 256개의 더 작은 전문가를 사용합니다. 이 세분화 분할에는 여러 장점이 있습니다:

더 정밀한 지식 배분: 각 전문가가 더 특정한 지식 서브셋에 집중 가능
더 유연한 조합: C(256, 8)은 C(16, 2)를 훨씬 초과하여, 더 풍부한 전문가 조합을 제공
더 나은 부하 균형: 전문가가 많을수록 부하를 더 균등하게 분배 가능

4. GPT-4의 Dense 아키텍처와의 비교

아키텍처 수준의 근본적 차이

비교 항목	GPT-4 (Dense)	DeepSeek-V3 (MoE)
아키텍처 유형	Dense Transformer	MoE Transformer
총 파라미터 수	~1.8T (추정)	671B
토큰당 계산 파라미터	~1.8T	37B
토큰당 FLOPs	매우 높음	GPT-4의 약 1/50
훈련 비용	수억 달러	약 557만 달러
추론 하드웨어 요구사항	대규모 GPU 클러스터	상대적으로 적은 GPU

성능 비교의 시사점

놀랍게도, DeepSeek-V3는 토큰당 37B 파라미터만 활성화함에도(GPT-4 추정 파라미터 수의 2% 미만) 여러 벤치마크에서 동등하거나 더 우수한 점수를 달성했습니다. 이는 중요한 관점을 증명합니다:

모델의 능력은 파라미터 수뿐만 아니라 아키텍처의 효율성과 훈련 데이터의 품질에 달려 있다.

Dense 모델의 많은 파라미터에는 중복이 존재할 수 있습니다 — 주어진 입력에 대해 대량의 파라미터가 의미 있는 계산에 기여하지 않습니다. MoE는 희소 활성화를 통해 이러한 중복을 효과적으로 제거합니다.

5. 훈련 과제: 부하 균형과 전문가 붕괴

MoE 아키텍처는 효율적이지만, 훈련 과정에는 고유한 과제가 있습니다.

부하 불균형 문제

게이팅 네트워크에 적절한 제약이 없으면 "선호도"가 생길 수 있습니다 — 항상 소수의 전문가에게만 토큰을 라우팅합니다:

이상적 상태: 각 전문가가 약 N/E개의 토큰을 처리 (균등 분포)
현실: 소수의 "인기" 전문가가 대량의 토큰을 처리하고, 다수는 유휴 상태

결과:
1. 인기 전문가 과부하 → 계산 병목현상
2. 비인기 전문가 훈련 부족 → 파라미터 낭비
3. 전체 효율 저하 → MoE의 설계 의도에 반함

전문가 붕괴 (Expert Collapse)

더 심각한 문제는 "전문가 붕괴"입니다 — 여러 전문가가 거의 동일한 기능을 학습하여 전문화 특성을 상실합니다. 이는 실질적으로 여러 전문가를 하나로 "붕괴"시켜 모델의 유효 용량을 크게 감소시킵니다.

붕괴의 원인은 일반적으로:

마태 효과: 자주 선택되는 전문가는 더 많은 훈련을 받아 더 강해지고, 더 많이 선택됨
경사도 기아: 선택되지 않는 전문가는 경사도 업데이트를 받지 못하고 점차 "퇴화"
초기화 편향: 일부 전문가가 초기 가중치로 인해 초기 우위를 획득

6. DeepSeek의 보조 손실 함수 설계

위의 훈련 과제를 해결하기 위해 DeepSeek는 정교한 보조 손실 함수를 설계했습니다.

부하 균형 손실 (Load Balancing Loss)

전통적인 부하 균형 손실은 불균등한 분포에 페널티를 부과하여 균등한 라우팅을 촉진합니다:

L_balance = α · E · Σ(i=1→E) f_i · P_i

여기서:
- f_i = 전문가 i에 라우팅된 토큰 비율
- P_i = 게이팅 네트워크가 전문가 i에 할당한 평균 확률
- α는 균형 계수

그러나 DeepSeek는 전통적인 보조 손실 함수에 근본적인 모순이 있음을 발견했습니다: 큰 균형 계수는 모델 성능을 저하시키고, 작으면 부하를 효과적으로 제약하지 못합니다.

DeepSeek의 보조 손실 없는 부하 균형

DeepSeek-V3는 혁신적인 보조 손실 없는(Auxiliary-Loss-Free) 부하 균형 전략을 제안했습니다. 핵심 아이디어는 각 전문가에 학습 가능한 편향 항을 도입하는 것입니다:

게이팅 스코어 = Softmax(W_g · x + b_i)

여기서 b_i는 전문가 i의 편향 항으로, 다음 규칙으로 업데이트:
- 전문가 i의 부하가 평균 이상 → b_i 감소
- 전문가 i의 부하가 평균 이하 → b_i 증가

이 접근법의 장점:

메인 손실 함수에 영향 없음: 부하 균형은 완전히 편향 항으로 구현되어, 모델의 학습 목표를 방해하지 않음
동적 적응: 편향 항이 실제 부하 상황에 따라 실시간으로 조정
더 우수한 성능-균형 트레이드오프: 실험에 의하면, 전통적인 보조 손실 방법에 비해 부하 균형을 유지하면서 모델 성능이 향상됨

보완적 시퀀스 수준 보조 손실

보충으로 DeepSeek는 시퀀스 수준의 보조 손실도 도입하여, 더 거시적 수준에서 전문가 활용의 균형을 보장합니다:

L_seq = β · Σ(i=1→E) max(0, f_i^seq - μ)

각 훈련 시퀀스 내의 전문가 부하를 제약
개별 시퀀스 내의 극단적 불균형을 방지

7. 추론 효율: FLOPs 비교

MoE 아키텍처의 가장 큰 장점 중 하나는 추론 효율입니다. 다음은 상세한 FLOPs 비교입니다:

계산량 비교

전제 조건: 1개 토큰 처리

GPT-4 (Dense, ~1.8T 파라미터):
- 순전파 FLOPs ≈ 2 × 1.8T = 3.6T FLOPs

DeepSeek-V3 (MoE, 37B 활성화 파라미터):
- 순전파 FLOPs ≈ 2 × 37B = 74B FLOPs
- MoE 라우팅 오버헤드 ≈ 무시 가능

효율 향상: 3.6T / 74B ≈ 48.6배

처리량 비교

동일 하드웨어 조건에서 MoE 모델은 현저히 높은 추론 처리량을 달성할 수 있습니다:

지표	Dense 모델 (1.8T)	DeepSeek-V3 (MoE)	향상 배율
토큰당 FLOPs	~3.6T	~74B	~48x
첫 토큰까지 지연	기준	대폭 감소	—
처리량 (tokens/s)	기준	크게 향상	—
백만 토큰당 비용	높음	낮음 (입력 $0.27)	~50x

메모리 대역폭 고려사항

MoE는 계산량에서 거대한 이점이 있지만, 메모리 측면에서는 주의가 필요합니다: MoE 모델의 전체 파라미터를 GPU 메모리에 로드해야 합니다(또는 전문가 병렬성으로 여러 GPU에 분산). 이는:

VRAM 요구사항: 671B 파라미터 × 2바이트 (FP16) ≈ 1.34 TB VRAM
전문가 병렬성: 서로 다른 전문가를 서로 다른 GPU에 분산하여, 각 GPU는 일부 전문가만 저장
통신 오버헤드: GPU 간 전문가 호출에는 고속 인터커넥트(예: NVLink)가 필요

8. Multi-Head Latent Attention (MLA) 기술

MoE 외에도 DeepSeek는 추론 효율을 더욱 향상시키기 위해 MLA 기술을 도입했습니다.

전통적인 Multi-Head Attention의 병목현상

표준 MHA는 추론 시 대량의 KV (Key-Value) 벡터를 캐시해야 합니다:

표준 MHA의 KV 캐시:
레이어 수 × 헤드 수 × 시퀀스 길이 × 헤드 차원

DeepSeek-V3의 경우 (61레이어, 128 어텐션 헤드, 차원 128):
KV 캐시 = 61 × 128 × 2 × seq_len × 128 × 2바이트
시퀀스 길이 4096일 때 ≈ 16.4 GB

MLA의 압축 전략

MLA의 핵심 아이디어는 KV의 저차원 결합 압축입니다:

전통적인 MHA:
Q, K, V 각각 독립적으로 투영
KV 캐시 크기 = n_heads × 2 × d_head × seq_len

MLA:
KV를 저차원 잠재 공간으로 결합 압축
KV 캐시 크기 = d_compressed × seq_len (전통 방식보다 훨씬 작음)

압축비 = d_compressed / (n_heads × 2 × d_head)

DeepSeek-V3에서 MLA는 KV 캐시를 약 93.3% 압축합니다. 이는:

더 긴 컨텍스트 윈도우: 같은 VRAM으로 더 긴 시퀀스 지원
더 큰 배치 크기: 동시에 더 많은 요청 처리 가능
더 낮은 추론 비용: 메모리 대역폭 요구사항 감소

MLA와 MoE의 시너지 효과

MLA와 MoE는 DeepSeek 아키텍처에서 완벽한 보완 관계를 형성합니다:

기술	최적화 대상	효과
MoE	계산량 감소 (FLOPs)	토큰당 37B/671B 파라미터만 사용
MLA	메모리 사용량 감소 (KV 캐시)	어텐션 캐시 93.3% 압축
시너지 효과	계산과 메모리 병목현상 동시 감소	추론 효율 전면적 향상

9. 로컬 배포에 대한 영향

하드웨어 요구사항의 대폭 감소

MoE 아키텍처와 MLA 기술의 조합으로 DeepSeek 클래스 모델의 로컬 배포가 실현 가능해졌습니다:

양자화 배포 옵션:

양자화 정밀도	모델 크기	최소 VRAM 요구	권장 구성
FP16	~1.34 TB	8× A100 80GB	전문 배포
INT8	~671 GB	8× A100 80GB	고성능 배포
INT4	~335 GB	4× A100 80GB	균형 방안
1.58-bit	~130 GB	소비자용 GPU 가능	입문 배포

커뮤니티 주도 최적화

DeepSeek의 오픈소스 전략 덕분에 커뮤니티는 다양한 최적화 솔루션을 개발했습니다:

Unsloth 양자화: 1.58비트부터 8비트까지의 양자화 옵션 제공
vLLM 최적화: MoE 아키텍처를 위한 추론 프레임워크 최적화
전문가 오프로딩: 비활성 전문가를 CPU 메모리나 SSD에 저장하고, 필요 시에만 GPU에 로드
분산 추론: 멀티 노드, 멀티 GPU 협업 추론으로 단일 머신 하드웨어 요구사항 감소

추론 최적화 기법

전문가 캐싱 전략:
1. 다음 토큰이 필요로 하는 전문가 예측 → 사전 로드
2. 최근 사용된 전문가 캐시 → 시간적 지역성 활용
3. 도메인별 전문가 그룹화 → 공간적 지역성 활용

실제 효과:
- 전문가 캐시 적중률 85% 이상 달성 가능
- 추론 지연 30-50% 감소

10. 실제 응용에서의 성능 vs 비용 트레이드오프

비용 효율 분석

DeepSeek-V3의 API 가격 책정은 MoE 아키텍처의 비용 우위를 직관적으로 보여줍니다:

모델	입력 가격 (백만 토큰당)	출력 가격 (백만 토큰당)
DeepSeek-V3	$0.27	$1.10
GPT-4o	$2.50	$10.00
Claude 3.5 Sonnet	$3.00	$15.00
비용 차이	~10배 저렴	~10배 저렴

성능-비용 곡선

MoE 아키텍처는 성능-비용 스케일링 곡선을 근본적으로 변경합니다:

전통적 스케일링 법칙 (Dense):
성능 2배 향상 → 비용 약 4배 증가 (이차 관계)

MoE 스케일링 법칙:
성능 2배 향상 → 비용 약 2배 증가 (근사 선형)

이유: MoE는 전문가 수를 늘려 용량을 확장할 수 있으며,
토큰당 계산량을 비례적으로 늘릴 필요 없음

시나리오별 권장사항

MoE 아키텍처는 만능이 아닙니다. 다음은 각 시나리오별 권장사항입니다:

시나리오	Dense 모델	MoE 모델	권장
고처리량 API 서비스	비용 높음	비용 낮음, 처리량 높음	MoE ✓
에지 디바이스 배포	소형 모델 가능	총 파라미터 수가 커서 제약	Dense ✓
지연 민감 시나리오	안정적 지연	라우팅이 미세한 지연 추가	동등
긴 컨텍스트 처리	KV 캐시 큼	MLA로 캐시 압축	MoE ✓
단일 GPU 배포	소형 모델에 적합	멀티 GPU 필요	Dense ✓
멀티 도메인 범용	균일한 능력	전문가 특화	MoE ✓

결론 및 전망

DeepSeek의 MoE 아키텍처는 중요한 업계 트렌드를 증명합니다: AI 모델의 발전은 규모의 확대뿐만 아니라 효율의 향상이 중요합니다. MoE 희소 활성화, MLA 어텐션 압축, 혁신적인 보조 손실 없는 부하 균형 등의 기술을 통해 DeepSeek는 다음을 실현했습니다:

48배의 계산 효율 향상: 토큰당 37B 파라미터의 계산량만 필요
93.3%의 KV 캐시 압축: MLA 기술로 메모리 요구사항을 대폭 감소
10배의 비용 우위: API 가격이 경쟁사의 1/10
오픈소스 및 배포 가능: 커뮤니티가 소비자용 하드웨어에서 양자화 버전 실행 가능

MoE 기술이 계속 성숙함에 따라, 미래의 대규모 모델은 점점 더 희소 아키텍처를 채택하여, 성능을 유지하거나 향상시키면서 훈련 및 추론 비용을 대폭 절감할 것으로 예상됩니다. DeepSeek의 실천은 업계 전체에 지속 가능한 기술 경로를 제공하여, 강력한 AI 능력이 소수 대기업의 전유물이 아닌 시대를 열고 있습니다.

DeepSeek의 MoE 아키텍처 설계는 현대 대규모 모델 엔지니어링에서 최고 수준 중 하나를 대표합니다. AI 연구자, 엔지니어, 기업가 누구든 MoE의 원리를 이해하는 것은 AI 기술의 미래를 더 잘 이해하는 데 도움이 될 것입니다.

혼합 전문가 모델(MoE) 아키텍처 원리: DeepSeek는 어떻게 적은 연산력으로 더 강력한 성능을 달성하는가

혼합 전문가 모델(MoE) 아키텍처 원리: DeepSeek는 어떻게 적은 연산력으로 더 강력한 성능을 달성하는가

1. MoE 아키텍처 기본 원리

전통적인 Dense 모델의 병목현상

MoE의 핵심 아이디어: 희소 활성화

파라미터 수와 계산량의 분리

2. 게이팅 네트워크(Gating Network)의 작동 원리

기본 게이팅 메커니즘

라우팅 전략의 진화

노이즈 주입과 탐색

3. DeepSeek의 MoE 혁신

총 파라미터 671B, 토큰당 37B만 활성화

공유 전문가 메커니즘

세분화 전문가 분할

4. GPT-4의 Dense 아키텍처와의 비교

아키텍처 수준의 근본적 차이

성능 비교의 시사점

5. 훈련 과제: 부하 균형과 전문가 붕괴

부하 불균형 문제

전문가 붕괴 (Expert Collapse)

6. DeepSeek의 보조 손실 함수 설계

부하 균형 손실 (Load Balancing Loss)

DeepSeek의 보조 손실 없는 부하 균형

보완적 시퀀스 수준 보조 손실

7. 추론 효율: FLOPs 비교

계산량 비교

처리량 비교

메모리 대역폭 고려사항

8. Multi-Head Latent Attention (MLA) 기술

전통적인 Multi-Head Attention의 병목현상

MLA의 압축 전략

MLA와 MoE의 시너지 효과

9. 로컬 배포에 대한 영향

하드웨어 요구사항의 대폭 감소

커뮤니티 주도 최적화

추론 최적화 기법

10. 실제 응용에서의 성능 vs 비용 트레이드오프

비용 효율 분석

성능-비용 곡선

시나리오별 권장사항

결론 및 전망

DeepSeek 지금 체험하기