DeepSeek 로컬 배포 완전 가이드: 입문부터 실전까지

DeepSeek 시리즈 모델의 오픈소스 공개로 많은 개발자와 기업이 이 강력한 AI 모델을 로컬 환경에서 실행하고자 합니다. 이 가이드에서는 처음부터 3가지 주류 로컬 배포 방법을 상세히 설명하여 자신의 상황에 가장 적합한 방법을 선택할 수 있도록 도와드립니다.

왜 로컬 배포를 선택하는가?

로컬 배포를 결정하기 전에 핵심 장점을 이해해 봅시다.

데이터 프라이버시와 보안

로컬 배포는 모든 데이터(프롬프트, 대화 내용, 비즈니스 문서)가 기기를 떠나지 않음을 의미합니다. 금융, 의료, 법률 등 민감한 정보를 다루는 산업에서는 이것이 컴플라이언스 요구사항의 최적 해결책입니다. 데이터 전송 중 유출 위험을 걱정할 필요 없으며, 제3자의 데이터 처리 계약에 의존할 필요도 없습니다.

초저지연

로컬 추론은 네트워크 왕복 지연을 제거합니다. API 호출은 일반적으로 200-500ms의 네트워크 오버헤드가 발생하지만, 로컬 추론은 거의 즉각적인 응답이 가능합니다. 코드 자동완성이나 대화 어시스턴트 같은 실시간 애플리케이션에서 이 차이는 매우 두드러집니다.

장기적 비용 우위

초기 하드웨어 투자는 크지만, 장기적으로 고빈도 사용 시나리오에서 로컬 배포 비용은 API 호출보다 훨씬 낮습니다. 하루 100만 토큰 사용량을 기준으로 비교하면:

솔루션	월 비용	연간 비용
DeepSeek API 호출	~$300	~$3,600
로컬 배포 (RTX 4090)	~$15 (전기료)	~$180 + 하드웨어 초기 투자
로컬 배포 (Mac Studio M4 Ultra)	~$8 (전기료)	~$96 + 하드웨어 초기 투자

오프라인 사용 가능

로컬 배포를 통해 인터넷이 없는 환경에서도 AI 기능을 정상적으로 사용할 수 있습니다 — 비행기, 오지, 에어갭 네트워크 등 어디서든 문제없습니다.

하드웨어 요구사항

모델 규모에 따라 하드웨어 요구사항이 다릅니다. 다음은 상세 권장 구성입니다.

NVIDIA GPU

NVIDIA GPU는 현재 가장 성숙한 로컬 배포 생태계를 보유하고 있으며, CUDA 호환성이 뛰어납니다.

모델	최소 VRAM	권장 VRAM	권장 GPU
DeepSeek-R1-1.5B (4-bit)	2GB	4GB	RTX 3060
DeepSeek-R1-7B (4-bit)	6GB	8GB	RTX 4060
DeepSeek-R1-8B (4-bit)	6GB	8GB	RTX 4070
DeepSeek-R1-14B (4-bit)	10GB	12GB	RTX 4070 Ti
DeepSeek-R1-32B (4-bit)	20GB	24GB	RTX 4090
DeepSeek-R1-70B (4-bit)	40GB	48GB	A6000 / 2x RTX 4090
DeepSeek-V3 (4-bit)	160GB	192GB	4x A100 80GB

AMD GPU

AMD GPU는 ROCm을 통해 대규모 모델 추론을 지원하며, 호환성이 지속적으로 개선되고 있습니다.

권장 GPU	VRAM	적용 모델
RX 7900 XTX	24GB	7B-14B
MI250X	128GB	70B
MI300X	192GB	V3 전체 모델

Apple Silicon

Apple Silicon의 통합 메모리 아키텍처는 LLM 추론에서 독특한 우위를 가집니다 — 시스템 메모리(최대 512GB)를 모델 로드에 사용할 수 있습니다.

칩	통합 메모리	적용 모델	예상 속도
M2/M3 Pro	18-36GB	7B-14B	10-20 tokens/s
M2/M3 Max	32-96GB	14B-32B	15-25 tokens/s
M4 Pro	24-48GB	14B-32B	20-35 tokens/s
M4 Max	36-128GB	32B-70B	25-40 tokens/s
M4 Ultra	192-512GB	70B-V3 전체	30-50 tokens/s

메모리(RAM) 요구사항

GPU 추론을 사용하더라도 모델 로딩과 컨텍스트 관리에는 충분한 시스템 메모리가 중요합니다:

7B 모델: 최소 16GB, 권장 32GB
14B-32B 모델: 최소 32GB, 권장 64GB
70B 모델: 최소 64GB, 권장 128GB

방법 1: Ollama 배포 (가장 간단)

Ollama는 현재 가장 간단한 로컬 LLM 배포 도구로, 원클릭 설치와 한 줄 명령으로 모델을 실행할 수 있습니다.

Ollama 설치

macOS:

# Homebrew로 설치
brew install ollama

Linux:

# 원클릭 설치 스크립트
curl -fsSL https://ollama.com/install.sh | sh

Windows:

ollama.com/download에서 설치 프로그램을 다운로드하여 실행합니다.

DeepSeek 모델 다운로드 및 실행

# DeepSeek-R1 7B 실행 (입문 추천)
ollama run deepseek-r1:7b

# DeepSeek-R1 14B 실행
ollama run deepseek-r1:14b

# DeepSeek-R1 32B 실행 (24GB 이상 VRAM 필요)
ollama run deepseek-r1:32b

# DeepSeek-R1 70B 실행 (48GB 이상 VRAM 또는 대용량 메모리 Mac 필요)
ollama run deepseek-r1:70b

Ollama API 사용

Ollama는 기본적으로 localhost:11434에서 API 서비스를 제공하며, OpenAI API 형식과 호환됩니다:

import openai

# 클라이언트 생성, 로컬 Ollama 서비스를 지정
client = openai.OpenAI(
    base_url="http://localhost:11434/v1",  # Ollama 로컬 주소
    api_key="ollama"  # Ollama는 실제 API Key가 필요 없음
)

# 채팅 요청 전송
response = client.chat.completions.create(
    model="deepseek-r1:7b",  # 모델명 지정
    messages=[
        {"role": "system", "content": "당신은 도움이 되는 어시스턴트입니다."},
        {"role": "user", "content": "Transformer 아키텍처에 대해 설명해 주세요."}
    ],
    temperature=0.7,  # 출력 무작위성 제어
    max_tokens=2048   # 최대 출력 길이
)

# 응답 내용 출력
print(response.choices[0].message.content)

Ollama 주요 명령어

# 다운로드된 모델 목록
ollama list

# 모델 상세 정보 보기
ollama show deepseek-r1:7b

# 모델 삭제하여 공간 확보
ollama rm deepseek-r1:7b

# 백그라운드에서 Ollama 서비스 시작
ollama serve

# 모델 복사 및 이름 변경
ollama cp deepseek-r1:7b my-deepseek

# 실행 중인 모델 보기
ollama ps

커스텀 Modelfile

Modelfile로 모델 동작을 커스터마이즈할 수 있습니다:

# Modelfile 생성
FROM deepseek-r1:7b

# 시스템 프롬프트 설정
SYSTEM """당신은 Python과 JavaScript에 능숙한 전문 프로그래밍 어시스턴트입니다."""

# 모델 파라미터 조정
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

# Modelfile 기반으로 커스텀 모델 생성
ollama create my-coding-assistant -f Modelfile

# 커스텀 모델 실행
ollama run my-coding-assistant

방법 2: vLLM 배포 (고성능 추론)

vLLM은 PagedAttention 기술로 효율적인 메모리 관리를 구현하는 고성능 LLM 추론 및 서빙 프레임워크입니다. 프로덕션 환경과 높은 동시성 시나리오에 특히 적합합니다.

vLLM 설치

# 가상 환경 생성 (권장)
python -m venv vllm-env
source vllm-env/bin/activate

# vLLM 설치 (NVIDIA GPU + CUDA 12.1 이상 필요)
pip install vllm

vLLM 추론 서버 시작

# OpenAI 호환 API 서비스 시작
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9 \
    --dtype auto \
    --trust-remote-code

vLLM 고급 설정

# 멀티 GPU 텐서 병렬 (대규모 모델용)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --tensor-parallel-size 2 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.95 \
    --enable-prefix-caching \
    --host 0.0.0.0 \
    --port 8000

# 양자화 모델로 VRAM 사용량 감소
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --quantization awq \
    --max-model-len 8192 \
    --host 0.0.0.0 \
    --port 8000

vLLM API 호출

import openai

# 로컬 vLLM 서비스에 연결
client = openai.OpenAI(
    base_url="http://localhost:8000/v1",  # vLLM 로컬 주소
    api_key="not-needed"  # 로컬 배포에서는 API Key 불필요
)

# 스트리밍 출력 예시
stream = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    messages=[
        {"role": "user", "content": "Python으로 퀵소트 알고리즘을 작성해 주세요"}
    ],
    stream=True,  # 스트리밍 출력 활성화
    temperature=0.3
)

# 스트리밍 출력을 순차적으로 표시
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

vLLM vs Ollama 비교

특성	Ollama	vLLM
설치 난이도	매우 쉬움	중간
성능	양호	우수 (+20-50%)
동시성 지원	기본적	우수 (프로덕션급)
메모리 효율	보통	우수 (PagedAttention)
Apple Silicon	완벽 지원	미지원
최적 용도	개인 사용, 개발 테스트	프로덕션, 높은 동시성

방법 3: Docker 배포

Docker 배포는 뛰어난 환경 격리와 이식성을 제공하여 팀 협업과 프로덕션 배포에 적합합니다.

Ollama Docker 이미지 사용

# Ollama 공식 Docker 이미지 풀
docker pull ollama/ollama

# CPU 모드로 실행
docker run -d \
    --name ollama \
    -v ollama_data:/root/.ollama \
    -p 11434:11434 \
    ollama/ollama

# NVIDIA GPU 모드로 실행 (nvidia-container-toolkit 필요)
docker run -d \
    --name ollama-gpu \
    --gpus all \
    -v ollama_data:/root/.ollama \
    -p 11434:11434 \
    ollama/ollama

# 컨테이너에 접속하여 모델 다운로드 및 실행
docker exec -it ollama-gpu ollama run deepseek-r1:7b

Docker Compose 오케스트레이션

docker-compose.yml 파일을 생성합니다:

version: '3.8'

services:
  # Ollama 추론 서비스
  ollama:
    image: ollama/ollama:latest
    container_name: deepseek-ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama   # 모델 데이터 영구 저장
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all            # 사용 가능한 모든 GPU 사용
              capabilities: [gpu]
    restart: unless-stopped

  # Open WebUI - 웹 채팅 인터페이스 제공
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: deepseek-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434  # Ollama 서비스에 연결
    volumes:
      - webui_data:/app/backend/data
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama_data:    # 모델 스토리지 볼륨
  webui_data:     # WebUI 데이터 볼륨

# 모든 서비스 시작
docker compose up -d

# 서비스 상태 확인
docker compose ps

# 로그 보기
docker compose logs -f ollama

# 서비스 중지
docker compose down

vLLM Docker 배포

# vLLM 공식 Docker 이미지 사용
docker run -d \
    --name vllm-deepseek \
    --gpus all \
    -v huggingface_cache:/root/.cache/huggingface \
    -p 8000:8000 \
    vllm/vllm-openai:latest \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9

양자화 버전 선택

양자화는 모델 크기와 메모리 요구사항을 줄이는 핵심 기술입니다. 서로 다른 양자화 정밀도는 품질과 리소스 소비 간에 다른 트레이드오프를 제공합니다.

양자화 정밀도 비교

정밀도	모델 크기 (7B)	VRAM 사용량	품질 손실	추론 속도	적합한 상황
FP16 (원본)	~14GB	~16GB	없음	기준	품질 우선, VRAM 충분
8-bit (INT8)	~7GB	~9GB	극소	+10-20%	균형 잡힌 선택
4-bit (Q4_K_M)	~4GB	~6GB	작음	+30-50%	VRAM 부족 시 권장
4-bit (Q4_0)	~3.8GB	~5.5GB	작음	+40-60%	극한의 VRAM 제약
3-bit	~2.8GB	~4.5GB	눈에 띔	+50-70%	비추천
2-bit	~2GB	~3.5GB	심각	+60-80%	테스트 전용

어떻게 선택할까?

권장 전략:

VRAM >= 모델 FP16 크기의 1.2배 → FP16으로 최고 품질 확보
VRAM이 빠듯하지만 INT8 모델 크기보다 큼 → 8-bit 양자화
VRAM이 제한적 → 4-bit 양자화 (Q4_K_M), 가성비 최고의 선택
극한 시나리오 → Q4_0, 약간의 품질 저하 감수

Ollama에서의 양자화 선택

# Ollama는 기본적으로 Q4_K_M 양자화 사용 (대부분의 시나리오에 적합)
ollama run deepseek-r1:7b

# 양자화 버전 지정
ollama run deepseek-r1:7b-q8_0     # 8-bit 양자화
ollama run deepseek-r1:7b-q4_K_M   # 4-bit 양자화 (기본값)
ollama run deepseek-r1:7b-fp16      # FP16 원본 정밀도

성능 벤치마크

다음은 다양한 하드웨어 구성에서 DeepSeek 모델을 실행한 실측 성능 데이터(tokens/s, 생성 속도)입니다.

DeepSeek-R1-7B (4-bit 양자화)

하드웨어	첫 토큰 지연	생성 속도	비고
RTX 3060 12GB	~150ms	35-45 tokens/s	입문 GPU
RTX 4060 8GB	~120ms	45-55 tokens/s	가성비 최고
RTX 4070 Ti 12GB	~80ms	60-75 tokens/s	권장 구성
RTX 4090 24GB	~50ms	90-110 tokens/s	최고 성능
M3 Pro 18GB	~200ms	18-25 tokens/s	MacBook Pro
M4 Pro 24GB	~150ms	28-35 tokens/s	최신 Mac
M4 Max 48GB	~100ms	35-45 tokens/s	하이엔드 Mac

DeepSeek-R1-32B (4-bit 양자화)

하드웨어	첫 토큰 지연	생성 속도	비고
RTX 4090 24GB	~200ms	25-35 tokens/s	겨우 들어감
A6000 48GB	~150ms	35-45 tokens/s	전문 GPU
2x RTX 4090	~180ms	40-55 tokens/s	듀얼 GPU 병렬
M4 Max 64GB	~300ms	18-25 tokens/s	통합 메모리 장점
M4 Ultra 192GB	~200ms	30-40 tokens/s	Mac 최강 구성

DeepSeek-R1-70B (4-bit 양자화)

하드웨어	첫 토큰 지연	생성 속도	비고
2x RTX 4090 48GB	~500ms	12-18 tokens/s	VRAM 빠듯
A100 80GB	~300ms	25-35 tokens/s	데이터센터급
2x A100 80GB	~200ms	40-55 tokens/s	높은 동시성 권장
M4 Ultra 192GB	~400ms	15-22 tokens/s	Mac 한 대로 70B

Apple Silicon (M4 Ultra)에서의 성능

Apple M4 Ultra는 현재 개인 사용자가 확보할 수 있는 가장 강력한 로컬 추론 플랫폼 중 하나입니다. 192GB 통합 메모리로 70B급 모델을 실행할 수 있으며, 전체 DeepSeek-V3 로딩도 시도할 수 있습니다.

M4 Ultra의 고유한 장점

통합 메모리 아키텍처: CPU와 GPU가 메모리를 공유하여 데이터 복사 불필요, 모델 로딩 효율이 극히 높음
대용량 메모리 대역폭: M4 Ultra는 최대 819.2 GB/s의 메모리 대역폭을 제공하여 추론 속도를 크게 향상
뛰어난 전력 효율: 시스템 전체 소비 전력 60-150W에 불과, NVIDIA GPU 솔루션보다 훨씬 낮음
무소음 작동: Mac Studio는 거의 소음이 없어 사무실과 가정 환경에 최적
즉시 사용 가능: Ollama가 Metal을 네이티브 지원하여 CUDA 설정 불필요

M4 Ultra 벤치마크 결과

테스트 환경: Mac Studio M4 Ultra, 192GB 통합 메모리, macOS 15.4

DeepSeek-R1-7B (Q4_K_M):
  ├── 로딩 시간: 1.2s
  ├── 첫 토큰: ~80ms
  ├── 생성 속도: 42 tokens/s
  └── 메모리 사용량: ~5GB

DeepSeek-R1-32B (Q4_K_M):
  ├── 로딩 시간: 8.5s
  ├── 첫 토큰: ~200ms
  ├── 생성 속도: 32 tokens/s
  └── 메모리 사용량: ~20GB

DeepSeek-R1-70B (Q4_K_M):
  ├── 로딩 시간: 25s
  ├── 첫 토큰: ~400ms
  ├── 생성 속도: 18 tokens/s
  └── 메모리 사용량: ~42GB

DeepSeek-V3-671B (Q4_K_M, 실험적):
  ├── 로딩 시간: ~5min
  ├── 첫 토큰: ~3s
  ├── 생성 속도: 2-4 tokens/s
  └── 메모리 사용량: ~170GB

M4 Ultra 배포 권장사항

# Ollama 설치 (Metal 가속 네이티브 지원)
brew install ollama

# 권장 32B 모델 실행 (M4 Ultra의 최적 밸런스 포인트)
ollama run deepseek-r1:32b

# 192GB 메모리가 있다면 70B도 시도 가능
ollama run deepseek-r1:70b

# 병렬 수를 설정하여 M4 Ultra의 연산 능력을 최대한 활용
OLLAMA_NUM_PARALLEL=4 ollama serve

API 호출과의 비용 비교

시나리오 1: 개인 개발자 (하루 약 5만 토큰)

솔루션	월 비용	연간 비용	비고
DeepSeek API	~$22	~$264	종량제, 유연함
Ollama + RTX 4060	~$5 (전기료)	$60 + $300 (하드웨어)	첫 해 $360, 이후 연 $60
Ollama + M4 Pro Mac	~$3 (전기료)	$36 + $2,399 (하드웨어)	장기적으로 가성비 좋음

결론: 개인 가벼운 사용에는 API가 더 경제적입니다.

시나리오 2: 소규모 팀 (하루 약 50만 토큰)

솔루션	월 비용	연간 비용	비고
DeepSeek API	~$220	~$2,640	안정적, 유지보수 불필요
vLLM + RTX 4090	~$15 (전기료)	$180 + $1,600 (하드웨어)	1년 내 ROI 달성
vLLM + A6000	~$20 (전기료)	$240 + $4,500 (하드웨어)	더 큰 모델, 더 나은 동시성

결론: 고빈도 사용 시 로컬 배포가 1년 내 하드웨어 비용 회수 가능합니다.

시나리오 3: 엔터프라이즈 (하루 약 500만 토큰)

솔루션	월 비용	연간 비용	비고
DeepSeek API	~$2,200	~$26,400	속도 제한 가능성
vLLM + 4x A100	~$200 (전기료)	$2,400 + $60,000 (하드웨어)	2년 내 ROI, 완전한 통제
클라우드 GPU (온디맨드)	~$3,000	~$36,000	유연, 하드웨어 유지보수 불필요

결론: 엔터프라이즈급 고빈도 사용에는 자체 추론 클러스터가 장기적으로 가장 경제적입니다.

비용 결정 트리

일일 토큰 사용량은?
├── < 1만 토큰 → API 사용, 로컬 배포 불필요
├── 1-10만 토큰 → 프라이버시 요구사항에 따라
│   ├── 프라이버시 필요 → 로컬 배포 (Ollama + 소비자용 GPU)
│   └── 프라이버시 불필요 → API가 더 편리
├── 10-100만 토큰 → 로컬 배포에 비용 우위 발생
│   ├── 개인/소규모 팀 → Ollama + RTX 4090
│   └── 높은 동시성 필요 → vLLM + 전문 GPU
└── > 100만 토큰 → 로컬 배포 강력 권장
    ├── 중간 예산 → vLLM + 멀티 GPU 소비자용 구성
    └── 충분한 예산 → vLLM + A100/H100 클러스터

자주 발생하는 문제 해결

문제 1: 모델 다운로드 속도가 느림

# Ollama 미러 소스 설정 (중국 사용자용)
export OLLAMA_HOST=https://ollama.mirrors.example.com

# 또는 수동으로 모델을 다운로드한 후 가져오기
ollama create deepseek-r1:7b -f /path/to/Modelfile

HuggingFace 모델 파일이 있는 경우, Modelfile에서 로컬 GGUF 파일 경로를 지정할 수도 있습니다.

문제 2: CUDA 메모리 부족 (OOM)

# GPU VRAM 사용률 낮추기
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --gpu-memory-utilization 0.8 \  # 0.9에서 0.8으로 낮춤
    --max-model-len 4096            # 컨텍스트 길이 줄이기

# 또는 더 공격적인 양자화 사용
ollama run deepseek-r1:7b-q4_0  # Q4_K_M 대신 Q4_0 사용

문제 3: Apple Silicon에서 속도가 느림

# Metal 가속이 사용되고 있는지 확인 (Ollama는 기본적으로 활성화)
# GPU가 올바르게 사용되는지 확인
ollama run deepseek-r1:7b --verbose

# 메모리를 많이 사용하는 다른 앱을 닫아 모델에 더 많은 통합 메모리 확보
# 활성 상태 보기에서 메모리 압력 확인

# Ollama의 GPU 레이어 수 증가
OLLAMA_NUM_GPU=999 ollama run deepseek-r1:7b

문제 4: Docker 컨테이너가 GPU에 접근할 수 없음

# NVIDIA Container Toolkit 설치
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# GPU 사용 가능 여부 확인
docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi

# 여전히 문제가 있으면 Docker 데몬 설정 확인
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

문제 5: 모델 출력 품질이 나쁨

양자화 정밀도 확인: 너무 낮은 양자화(예: 2-bit)를 사용하면 품질이 눈에 띄게 저하됩니다. 최소 Q4_K_M을 사용하세요
온도 파라미터 조정: 코드 작업은 0.1-0.3, 대화는 0.5-0.7, 창작 글쓰기는 0.8-1.0
시스템 프롬프트 확인: 시스템 프롬프트가 명확하고 구체적인지 확인
컨텍스트 길이 증가: 일부 작업에는 더 긴 컨텍스트 윈도우가 필요

문제 6: 다중 사용자 동시 접속 시 응답 느려짐

# Ollama 병렬 수 설정
OLLAMA_NUM_PARALLEL=4 ollama serve

# vLLM은 효율적인 동시 처리를 내장
# GPU 수를 늘려 동시 처리 능력 향상 가능
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --tensor-parallel-size 2 \
    --max-num-seqs 32  # 최대 동시 시퀀스 수

요약

방법	최적 대상	난이도	성능	추천도
Ollama	개인 개발자, 입문자	매우 쉬움	양호	강력 추천
vLLM	프로덕션, 높은 동시성	중간	우수	추천
Docker	팀 협업, 표준화 배포	쉬움~중간	매우 양호	추천

입문자 권장 경로: 먼저 Ollama로 빠르게 체험 → 더 높은 성능이 필요하면 vLLM으로 이전 → 표준화 배포가 필요하면 Docker로 래핑.

DeepSeek 모델을 로컬에 배포하는 것은 복잡하지 않습니다. 적합한 방법을 선택하면 몇 분 안에 강력한 AI 모델을 여러분의 기기에서 실행할 수 있습니다. 로컬 AI 여정을 시작해 보세요!

DeepSeek 로컬 배포 완전 가이드: 입문부터 실전까지

DeepSeek 로컬 배포 완전 가이드: 입문부터 실전까지

왜 로컬 배포를 선택하는가?

데이터 프라이버시와 보안

초저지연

장기적 비용 우위

오프라인 사용 가능

하드웨어 요구사항

NVIDIA GPU

AMD GPU

Apple Silicon

메모리(RAM) 요구사항

방법 1: Ollama 배포 (가장 간단)

Ollama 설치

DeepSeek 모델 다운로드 및 실행

Ollama API 사용

Ollama 주요 명령어

커스텀 Modelfile

방법 2: vLLM 배포 (고성능 추론)

vLLM 설치

vLLM 추론 서버 시작

vLLM 고급 설정

vLLM API 호출

vLLM vs Ollama 비교

방법 3: Docker 배포

Ollama Docker 이미지 사용

Docker Compose 오케스트레이션

vLLM Docker 배포

양자화 버전 선택

양자화 정밀도 비교

어떻게 선택할까?

Ollama에서의 양자화 선택

성능 벤치마크

DeepSeek-R1-7B (4-bit 양자화)

DeepSeek-R1-32B (4-bit 양자화)

DeepSeek-R1-70B (4-bit 양자화)

Apple Silicon (M4 Ultra)에서의 성능

M4 Ultra의 고유한 장점

M4 Ultra 벤치마크 결과

M4 Ultra 배포 권장사항

API 호출과의 비용 비교

시나리오 1: 개인 개발자 (하루 약 5만 토큰)

시나리오 2: 소규모 팀 (하루 약 50만 토큰)

시나리오 3: 엔터프라이즈 (하루 약 500만 토큰)

비용 결정 트리

자주 발생하는 문제 해결

문제 1: 모델 다운로드 속도가 느림

문제 2: CUDA 메모리 부족 (OOM)

문제 3: Apple Silicon에서 속도가 느림

문제 4: Docker 컨테이너가 GPU에 접근할 수 없음

문제 5: 모델 출력 품질이 나쁨

문제 6: 다중 사용자 동시 접속 시 응답 느려짐

요약

DeepSeek 지금 체험하기