DeepSeek V4

DeepSeek 로컬 배포 완전 가이드: 입문부터 실전까지

DeepSeek 모델을 로컬에 배포하는 방법을 상세히 안내합니다. Ollama, vLLM, Docker 3가지 방법과 하드웨어 요구사항, 양자화 선택, 성능 벤치마크, 문제 해결을 다룹니다.

튜토리얼
DeepSeek AI Team2026-03-0812 min read
#deepseek#local-deployment#ollama#docker#tutorial

DeepSeek 로컬 배포 완전 가이드: 입문부터 실전까지

DeepSeek 시리즈 모델의 오픈소스 공개로 많은 개발자와 기업이 이 강력한 AI 모델을 로컬 환경에서 실행하고자 합니다. 이 가이드에서는 처음부터 3가지 주류 로컬 배포 방법을 상세히 설명하여 자신의 상황에 가장 적합한 방법을 선택할 수 있도록 도와드립니다.

왜 로컬 배포를 선택하는가?

로컬 배포를 결정하기 전에 핵심 장점을 이해해 봅시다.

데이터 프라이버시와 보안

로컬 배포는 모든 데이터(프롬프트, 대화 내용, 비즈니스 문서)가 기기를 떠나지 않음을 의미합니다. 금융, 의료, 법률 등 민감한 정보를 다루는 산업에서는 이것이 컴플라이언스 요구사항의 최적 해결책입니다. 데이터 전송 중 유출 위험을 걱정할 필요 없으며, 제3자의 데이터 처리 계약에 의존할 필요도 없습니다.

초저지연

로컬 추론은 네트워크 왕복 지연을 제거합니다. API 호출은 일반적으로 200-500ms의 네트워크 오버헤드가 발생하지만, 로컬 추론은 거의 즉각적인 응답이 가능합니다. 코드 자동완성이나 대화 어시스턴트 같은 실시간 애플리케이션에서 이 차이는 매우 두드러집니다.

장기적 비용 우위

초기 하드웨어 투자는 크지만, 장기적으로 고빈도 사용 시나리오에서 로컬 배포 비용은 API 호출보다 훨씬 낮습니다. 하루 100만 토큰 사용량을 기준으로 비교하면:

솔루션월 비용연간 비용
DeepSeek API 호출~$300~$3,600
로컬 배포 (RTX 4090)~$15 (전기료)~$180 + 하드웨어 초기 투자
로컬 배포 (Mac Studio M4 Ultra)~$8 (전기료)~$96 + 하드웨어 초기 투자

오프라인 사용 가능

로컬 배포를 통해 인터넷이 없는 환경에서도 AI 기능을 정상적으로 사용할 수 있습니다 — 비행기, 오지, 에어갭 네트워크 등 어디서든 문제없습니다.


하드웨어 요구사항

모델 규모에 따라 하드웨어 요구사항이 다릅니다. 다음은 상세 권장 구성입니다.

NVIDIA GPU

NVIDIA GPU는 현재 가장 성숙한 로컬 배포 생태계를 보유하고 있으며, CUDA 호환성이 뛰어납니다.

모델최소 VRAM권장 VRAM권장 GPU
DeepSeek-R1-1.5B (4-bit)2GB4GBRTX 3060
DeepSeek-R1-7B (4-bit)6GB8GBRTX 4060
DeepSeek-R1-8B (4-bit)6GB8GBRTX 4070
DeepSeek-R1-14B (4-bit)10GB12GBRTX 4070 Ti
DeepSeek-R1-32B (4-bit)20GB24GBRTX 4090
DeepSeek-R1-70B (4-bit)40GB48GBA6000 / 2x RTX 4090
DeepSeek-V3 (4-bit)160GB192GB4x A100 80GB

AMD GPU

AMD GPU는 ROCm을 통해 대규모 모델 추론을 지원하며, 호환성이 지속적으로 개선되고 있습니다.

권장 GPUVRAM적용 모델
RX 7900 XTX24GB7B-14B
MI250X128GB70B
MI300X192GBV3 전체 모델

Apple Silicon

Apple Silicon의 통합 메모리 아키텍처는 LLM 추론에서 독특한 우위를 가집니다 — 시스템 메모리(최대 512GB)를 모델 로드에 사용할 수 있습니다.

통합 메모리적용 모델예상 속도
M2/M3 Pro18-36GB7B-14B10-20 tokens/s
M2/M3 Max32-96GB14B-32B15-25 tokens/s
M4 Pro24-48GB14B-32B20-35 tokens/s
M4 Max36-128GB32B-70B25-40 tokens/s
M4 Ultra192-512GB70B-V3 전체30-50 tokens/s

메모리(RAM) 요구사항

GPU 추론을 사용하더라도 모델 로딩과 컨텍스트 관리에는 충분한 시스템 메모리가 중요합니다:

  • 7B 모델: 최소 16GB, 권장 32GB
  • 14B-32B 모델: 최소 32GB, 권장 64GB
  • 70B 모델: 최소 64GB, 권장 128GB

방법 1: Ollama 배포 (가장 간단)

Ollama는 현재 가장 간단한 로컬 LLM 배포 도구로, 원클릭 설치와 한 줄 명령으로 모델을 실행할 수 있습니다.

Ollama 설치

macOS:

# Homebrew로 설치 brew install ollama

Linux:

# 원클릭 설치 스크립트 curl -fsSL https://ollama.com/install.sh | sh

Windows:

ollama.com/download에서 설치 프로그램을 다운로드하여 실행합니다.

DeepSeek 모델 다운로드 및 실행

# DeepSeek-R1 7B 실행 (입문 추천) ollama run deepseek-r1:7b # DeepSeek-R1 14B 실행 ollama run deepseek-r1:14b # DeepSeek-R1 32B 실행 (24GB 이상 VRAM 필요) ollama run deepseek-r1:32b # DeepSeek-R1 70B 실행 (48GB 이상 VRAM 또는 대용량 메모리 Mac 필요) ollama run deepseek-r1:70b

Ollama API 사용

Ollama는 기본적으로 localhost:11434에서 API 서비스를 제공하며, OpenAI API 형식과 호환됩니다:

import openai # 클라이언트 생성, 로컬 Ollama 서비스를 지정 client = openai.OpenAI( base_url="http://localhost:11434/v1", # Ollama 로컬 주소 api_key="ollama" # Ollama는 실제 API Key가 필요 없음 ) # 채팅 요청 전송 response = client.chat.completions.create( model="deepseek-r1:7b", # 모델명 지정 messages=[ {"role": "system", "content": "당신은 도움이 되는 어시스턴트입니다."}, {"role": "user", "content": "Transformer 아키텍처에 대해 설명해 주세요."} ], temperature=0.7, # 출력 무작위성 제어 max_tokens=2048 # 최대 출력 길이 ) # 응답 내용 출력 print(response.choices[0].message.content)

Ollama 주요 명령어

# 다운로드된 모델 목록 ollama list # 모델 상세 정보 보기 ollama show deepseek-r1:7b # 모델 삭제하여 공간 확보 ollama rm deepseek-r1:7b # 백그라운드에서 Ollama 서비스 시작 ollama serve # 모델 복사 및 이름 변경 ollama cp deepseek-r1:7b my-deepseek # 실행 중인 모델 보기 ollama ps

커스텀 Modelfile

Modelfile로 모델 동작을 커스터마이즈할 수 있습니다:

# Modelfile 생성 FROM deepseek-r1:7b # 시스템 프롬프트 설정 SYSTEM """당신은 Python과 JavaScript에 능숙한 전문 프로그래밍 어시스턴트입니다.""" # 모델 파라미터 조정 PARAMETER temperature 0.3 PARAMETER top_p 0.9 PARAMETER num_ctx 8192
# Modelfile 기반으로 커스텀 모델 생성 ollama create my-coding-assistant -f Modelfile # 커스텀 모델 실행 ollama run my-coding-assistant

방법 2: vLLM 배포 (고성능 추론)

vLLM은 PagedAttention 기술로 효율적인 메모리 관리를 구현하는 고성능 LLM 추론 및 서빙 프레임워크입니다. 프로덕션 환경과 높은 동시성 시나리오에 특히 적합합니다.

vLLM 설치

# 가상 환경 생성 (권장) python -m venv vllm-env source vllm-env/bin/activate # vLLM 설치 (NVIDIA GPU + CUDA 12.1 이상 필요) pip install vllm

vLLM 추론 서버 시작

# OpenAI 호환 API 서비스 시작 python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \ --host 0.0.0.0 \ --port 8000 \ --max-model-len 8192 \ --gpu-memory-utilization 0.9 \ --dtype auto \ --trust-remote-code

vLLM 고급 설정

# 멀티 GPU 텐서 병렬 (대규모 모델용) python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \ --tensor-parallel-size 2 \ --max-model-len 16384 \ --gpu-memory-utilization 0.95 \ --enable-prefix-caching \ --host 0.0.0.0 \ --port 8000 # 양자화 모델로 VRAM 사용량 감소 python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \ --quantization awq \ --max-model-len 8192 \ --host 0.0.0.0 \ --port 8000

vLLM API 호출

import openai # 로컬 vLLM 서비스에 연결 client = openai.OpenAI( base_url="http://localhost:8000/v1", # vLLM 로컬 주소 api_key="not-needed" # 로컬 배포에서는 API Key 불필요 ) # 스트리밍 출력 예시 stream = client.chat.completions.create( model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B", messages=[ {"role": "user", "content": "Python으로 퀵소트 알고리즘을 작성해 주세요"} ], stream=True, # 스트리밍 출력 활성화 temperature=0.3 ) # 스트리밍 출력을 순차적으로 표시 for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end="", flush=True)

vLLM vs Ollama 비교

특성OllamavLLM
설치 난이도매우 쉬움중간
성능양호우수 (+20-50%)
동시성 지원기본적우수 (프로덕션급)
메모리 효율보통우수 (PagedAttention)
Apple Silicon완벽 지원미지원
최적 용도개인 사용, 개발 테스트프로덕션, 높은 동시성

방법 3: Docker 배포

Docker 배포는 뛰어난 환경 격리와 이식성을 제공하여 팀 협업과 프로덕션 배포에 적합합니다.

Ollama Docker 이미지 사용

# Ollama 공식 Docker 이미지 풀 docker pull ollama/ollama # CPU 모드로 실행 docker run -d \ --name ollama \ -v ollama_data:/root/.ollama \ -p 11434:11434 \ ollama/ollama # NVIDIA GPU 모드로 실행 (nvidia-container-toolkit 필요) docker run -d \ --name ollama-gpu \ --gpus all \ -v ollama_data:/root/.ollama \ -p 11434:11434 \ ollama/ollama # 컨테이너에 접속하여 모델 다운로드 및 실행 docker exec -it ollama-gpu ollama run deepseek-r1:7b

Docker Compose 오케스트레이션

docker-compose.yml 파일을 생성합니다:

version: '3.8' services: # Ollama 추론 서비스 ollama: image: ollama/ollama:latest container_name: deepseek-ollama ports: - "11434:11434" volumes: - ollama_data:/root/.ollama # 모델 데이터 영구 저장 deploy: resources: reservations: devices: - driver: nvidia count: all # 사용 가능한 모든 GPU 사용 capabilities: [gpu] restart: unless-stopped # Open WebUI - 웹 채팅 인터페이스 제공 open-webui: image: ghcr.io/open-webui/open-webui:main container_name: deepseek-webui ports: - "3000:8080" environment: - OLLAMA_BASE_URL=http://ollama:11434 # Ollama 서비스에 연결 volumes: - webui_data:/app/backend/data depends_on: - ollama restart: unless-stopped volumes: ollama_data: # 모델 스토리지 볼륨 webui_data: # WebUI 데이터 볼륨
# 모든 서비스 시작 docker compose up -d # 서비스 상태 확인 docker compose ps # 로그 보기 docker compose logs -f ollama # 서비스 중지 docker compose down

vLLM Docker 배포

# vLLM 공식 Docker 이미지 사용 docker run -d \ --name vllm-deepseek \ --gpus all \ -v huggingface_cache:/root/.cache/huggingface \ -p 8000:8000 \ vllm/vllm-openai:latest \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \ --max-model-len 8192 \ --gpu-memory-utilization 0.9

양자화 버전 선택

양자화는 모델 크기와 메모리 요구사항을 줄이는 핵심 기술입니다. 서로 다른 양자화 정밀도는 품질과 리소스 소비 간에 다른 트레이드오프를 제공합니다.

양자화 정밀도 비교

정밀도모델 크기 (7B)VRAM 사용량품질 손실추론 속도적합한 상황
FP16 (원본)~14GB~16GB없음기준품질 우선, VRAM 충분
8-bit (INT8)~7GB~9GB극소+10-20%균형 잡힌 선택
4-bit (Q4_K_M)~4GB~6GB작음+30-50%VRAM 부족 시 권장
4-bit (Q4_0)~3.8GB~5.5GB작음+40-60%극한의 VRAM 제약
3-bit~2.8GB~4.5GB눈에 띔+50-70%비추천
2-bit~2GB~3.5GB심각+60-80%테스트 전용

어떻게 선택할까?

권장 전략:

  1. VRAM >= 모델 FP16 크기의 1.2배 → FP16으로 최고 품질 확보
  2. VRAM이 빠듯하지만 INT8 모델 크기보다 큼 → 8-bit 양자화
  3. VRAM이 제한적 → 4-bit 양자화 (Q4_K_M), 가성비 최고의 선택
  4. 극한 시나리오 → Q4_0, 약간의 품질 저하 감수

Ollama에서의 양자화 선택

# Ollama는 기본적으로 Q4_K_M 양자화 사용 (대부분의 시나리오에 적합) ollama run deepseek-r1:7b # 양자화 버전 지정 ollama run deepseek-r1:7b-q8_0 # 8-bit 양자화 ollama run deepseek-r1:7b-q4_K_M # 4-bit 양자화 (기본값) ollama run deepseek-r1:7b-fp16 # FP16 원본 정밀도

성능 벤치마크

다음은 다양한 하드웨어 구성에서 DeepSeek 모델을 실행한 실측 성능 데이터(tokens/s, 생성 속도)입니다.

DeepSeek-R1-7B (4-bit 양자화)

하드웨어첫 토큰 지연생성 속도비고
RTX 3060 12GB~150ms35-45 tokens/s입문 GPU
RTX 4060 8GB~120ms45-55 tokens/s가성비 최고
RTX 4070 Ti 12GB~80ms60-75 tokens/s권장 구성
RTX 4090 24GB~50ms90-110 tokens/s최고 성능
M3 Pro 18GB~200ms18-25 tokens/sMacBook Pro
M4 Pro 24GB~150ms28-35 tokens/s최신 Mac
M4 Max 48GB~100ms35-45 tokens/s하이엔드 Mac

DeepSeek-R1-32B (4-bit 양자화)

하드웨어첫 토큰 지연생성 속도비고
RTX 4090 24GB~200ms25-35 tokens/s겨우 들어감
A6000 48GB~150ms35-45 tokens/s전문 GPU
2x RTX 4090~180ms40-55 tokens/s듀얼 GPU 병렬
M4 Max 64GB~300ms18-25 tokens/s통합 메모리 장점
M4 Ultra 192GB~200ms30-40 tokens/sMac 최강 구성

DeepSeek-R1-70B (4-bit 양자화)

하드웨어첫 토큰 지연생성 속도비고
2x RTX 4090 48GB~500ms12-18 tokens/sVRAM 빠듯
A100 80GB~300ms25-35 tokens/s데이터센터급
2x A100 80GB~200ms40-55 tokens/s높은 동시성 권장
M4 Ultra 192GB~400ms15-22 tokens/sMac 한 대로 70B

Apple Silicon (M4 Ultra)에서의 성능

Apple M4 Ultra는 현재 개인 사용자가 확보할 수 있는 가장 강력한 로컬 추론 플랫폼 중 하나입니다. 192GB 통합 메모리로 70B급 모델을 실행할 수 있으며, 전체 DeepSeek-V3 로딩도 시도할 수 있습니다.

M4 Ultra의 고유한 장점

  1. 통합 메모리 아키텍처: CPU와 GPU가 메모리를 공유하여 데이터 복사 불필요, 모델 로딩 효율이 극히 높음
  2. 대용량 메모리 대역폭: M4 Ultra는 최대 819.2 GB/s의 메모리 대역폭을 제공하여 추론 속도를 크게 향상
  3. 뛰어난 전력 효율: 시스템 전체 소비 전력 60-150W에 불과, NVIDIA GPU 솔루션보다 훨씬 낮음
  4. 무소음 작동: Mac Studio는 거의 소음이 없어 사무실과 가정 환경에 최적
  5. 즉시 사용 가능: Ollama가 Metal을 네이티브 지원하여 CUDA 설정 불필요

M4 Ultra 벤치마크 결과

테스트 환경: Mac Studio M4 Ultra, 192GB 통합 메모리, macOS 15.4

DeepSeek-R1-7B (Q4_K_M):
  ├── 로딩 시간: 1.2s
  ├── 첫 토큰: ~80ms
  ├── 생성 속도: 42 tokens/s
  └── 메모리 사용량: ~5GB

DeepSeek-R1-32B (Q4_K_M):
  ├── 로딩 시간: 8.5s
  ├── 첫 토큰: ~200ms
  ├── 생성 속도: 32 tokens/s
  └── 메모리 사용량: ~20GB

DeepSeek-R1-70B (Q4_K_M):
  ├── 로딩 시간: 25s
  ├── 첫 토큰: ~400ms
  ├── 생성 속도: 18 tokens/s
  └── 메모리 사용량: ~42GB

DeepSeek-V3-671B (Q4_K_M, 실험적):
  ├── 로딩 시간: ~5min
  ├── 첫 토큰: ~3s
  ├── 생성 속도: 2-4 tokens/s
  └── 메모리 사용량: ~170GB

M4 Ultra 배포 권장사항

# Ollama 설치 (Metal 가속 네이티브 지원) brew install ollama # 권장 32B 모델 실행 (M4 Ultra의 최적 밸런스 포인트) ollama run deepseek-r1:32b # 192GB 메모리가 있다면 70B도 시도 가능 ollama run deepseek-r1:70b # 병렬 수를 설정하여 M4 Ultra의 연산 능력을 최대한 활용 OLLAMA_NUM_PARALLEL=4 ollama serve

API 호출과의 비용 비교

시나리오 1: 개인 개발자 (하루 약 5만 토큰)

솔루션월 비용연간 비용비고
DeepSeek API~$22~$264종량제, 유연함
Ollama + RTX 4060~$5 (전기료)$60 + $300 (하드웨어)첫 해 $360, 이후 연 $60
Ollama + M4 Pro Mac~$3 (전기료)$36 + $2,399 (하드웨어)장기적으로 가성비 좋음

결론: 개인 가벼운 사용에는 API가 더 경제적입니다.

시나리오 2: 소규모 팀 (하루 약 50만 토큰)

솔루션월 비용연간 비용비고
DeepSeek API~$220~$2,640안정적, 유지보수 불필요
vLLM + RTX 4090~$15 (전기료)$180 + $1,600 (하드웨어)1년 내 ROI 달성
vLLM + A6000~$20 (전기료)$240 + $4,500 (하드웨어)더 큰 모델, 더 나은 동시성

결론: 고빈도 사용 시 로컬 배포가 1년 내 하드웨어 비용 회수 가능합니다.

시나리오 3: 엔터프라이즈 (하루 약 500만 토큰)

솔루션월 비용연간 비용비고
DeepSeek API~$2,200~$26,400속도 제한 가능성
vLLM + 4x A100~$200 (전기료)$2,400 + $60,000 (하드웨어)2년 내 ROI, 완전한 통제
클라우드 GPU (온디맨드)~$3,000~$36,000유연, 하드웨어 유지보수 불필요

결론: 엔터프라이즈급 고빈도 사용에는 자체 추론 클러스터가 장기적으로 가장 경제적입니다.

비용 결정 트리

일일 토큰 사용량은?
├── < 1만 토큰 → API 사용, 로컬 배포 불필요
├── 1-10만 토큰 → 프라이버시 요구사항에 따라
│   ├── 프라이버시 필요 → 로컬 배포 (Ollama + 소비자용 GPU)
│   └── 프라이버시 불필요 → API가 더 편리
├── 10-100만 토큰 → 로컬 배포에 비용 우위 발생
│   ├── 개인/소규모 팀 → Ollama + RTX 4090
│   └── 높은 동시성 필요 → vLLM + 전문 GPU
└── > 100만 토큰 → 로컬 배포 강력 권장
    ├── 중간 예산 → vLLM + 멀티 GPU 소비자용 구성
    └── 충분한 예산 → vLLM + A100/H100 클러스터

자주 발생하는 문제 해결

문제 1: 모델 다운로드 속도가 느림

# Ollama 미러 소스 설정 (중국 사용자용) export OLLAMA_HOST=https://ollama.mirrors.example.com # 또는 수동으로 모델을 다운로드한 후 가져오기 ollama create deepseek-r1:7b -f /path/to/Modelfile

HuggingFace 모델 파일이 있는 경우, Modelfile에서 로컬 GGUF 파일 경로를 지정할 수도 있습니다.

문제 2: CUDA 메모리 부족 (OOM)

# GPU VRAM 사용률 낮추기 python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \ --gpu-memory-utilization 0.8 \ # 0.9에서 0.8으로 낮춤 --max-model-len 4096 # 컨텍스트 길이 줄이기 # 또는 더 공격적인 양자화 사용 ollama run deepseek-r1:7b-q4_0 # Q4_K_M 대신 Q4_0 사용

문제 3: Apple Silicon에서 속도가 느림

# Metal 가속이 사용되고 있는지 확인 (Ollama는 기본적으로 활성화) # GPU가 올바르게 사용되는지 확인 ollama run deepseek-r1:7b --verbose # 메모리를 많이 사용하는 다른 앱을 닫아 모델에 더 많은 통합 메모리 확보 # 활성 상태 보기에서 메모리 압력 확인 # Ollama의 GPU 레이어 수 증가 OLLAMA_NUM_GPU=999 ollama run deepseek-r1:7b

문제 4: Docker 컨테이너가 GPU에 접근할 수 없음

# NVIDIA Container Toolkit 설치 sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker # GPU 사용 가능 여부 확인 docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi # 여전히 문제가 있으면 Docker 데몬 설정 확인 sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker

문제 5: 모델 출력 품질이 나쁨

  • 양자화 정밀도 확인: 너무 낮은 양자화(예: 2-bit)를 사용하면 품질이 눈에 띄게 저하됩니다. 최소 Q4_K_M을 사용하세요
  • 온도 파라미터 조정: 코드 작업은 0.1-0.3, 대화는 0.5-0.7, 창작 글쓰기는 0.8-1.0
  • 시스템 프롬프트 확인: 시스템 프롬프트가 명확하고 구체적인지 확인
  • 컨텍스트 길이 증가: 일부 작업에는 더 긴 컨텍스트 윈도우가 필요

문제 6: 다중 사용자 동시 접속 시 응답 느려짐

# Ollama 병렬 수 설정 OLLAMA_NUM_PARALLEL=4 ollama serve # vLLM은 효율적인 동시 처리를 내장 # GPU 수를 늘려 동시 처리 능력 향상 가능 python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \ --tensor-parallel-size 2 \ --max-num-seqs 32 # 최대 동시 시퀀스 수

요약

방법최적 대상난이도성능추천도
Ollama개인 개발자, 입문자매우 쉬움양호강력 추천
vLLM프로덕션, 높은 동시성중간우수추천
Docker팀 협업, 표준화 배포쉬움~중간매우 양호추천

입문자 권장 경로: 먼저 Ollama로 빠르게 체험 → 더 높은 성능이 필요하면 vLLM으로 이전 → 표준화 배포가 필요하면 Docker로 래핑.

DeepSeek 모델을 로컬에 배포하는 것은 복잡하지 않습니다. 적합한 방법을 선택하면 몇 분 안에 강력한 AI 모델을 여러분의 기기에서 실행할 수 있습니다. 로컬 AI 여정을 시작해 보세요!

DeepSeek 지금 체험하기

Atlas Cloud에서 기사에 소개된 모든 기능을 무료로 체험

무료 체험