DeepSeek 本地部署完全指南：从入门到精通

随着 DeepSeek 系列模型的开源，越来越多的开发者和企业希望在本地环境中运行这些强大的 AI 模型。本指南将从零开始，详细介绍三种主流的本地部署方案，帮助你选择最适合自己场景的方式。

为什么选择本地部署？

在决定本地部署之前，先了解它带来的核心优势：

数据隐私与安全

本地部署意味着你的所有数据——提示词、对话内容、业务文档——都不会离开你的设备。对于涉及敏感信息的金融、医疗、法律行业来说，这是合规要求的最优解。你无需担心数据传输过程中的泄漏风险，也不需要依赖第三方的数据处理协议。

超低延迟

本地推理消除了网络往返延迟。API 调用通常需要 200-500ms 的网络开销，而本地推理可以实现近乎即时的响应。对于实时应用（如代码补全、对话助手）来说，这种差异非常明显。

长期成本优势

虽然初始硬件投入较大，但长期来看，高频调用场景下本地部署的成本远低于 API 调用。以每天 100 万 tokens 的使用量计算：

方案	月成本	年成本
DeepSeek API 调用	~$300	~$3,600
本地部署（RTX 4090）	~$15（电费）	~$180 + 一次性硬件投入
本地部署（Mac Studio M4 Ultra）	~$8（电费）	~$96 + 一次性硬件投入

离线可用

本地部署让你在没有网络的环境下也能正常使用 AI 能力——飞机上、偏远地区、内网环境，都不受影响。

硬件要求

不同规模的模型对硬件有不同的要求。以下是详细的推荐配置：

NVIDIA GPU

NVIDIA GPU 是目前本地部署最成熟的方案，CUDA 生态完善，兼容性最好。

模型	最低显存	推荐显存	推荐 GPU
DeepSeek-R1-1.5B (4-bit)	2GB	4GB	RTX 3060
DeepSeek-R1-7B (4-bit)	6GB	8GB	RTX 4060
DeepSeek-R1-8B (4-bit)	6GB	8GB	RTX 4070
DeepSeek-R1-14B (4-bit)	10GB	12GB	RTX 4070 Ti
DeepSeek-R1-32B (4-bit)	20GB	24GB	RTX 4090
DeepSeek-R1-70B (4-bit)	40GB	48GB	A6000 / 2x RTX 4090
DeepSeek-V3 (4-bit)	160GB	192GB	4x A100 80GB

AMD GPU

AMD GPU 通过 ROCm 支持大模型推理，兼容性在持续提升中。

推荐 GPU	显存	适用模型
RX 7900 XTX	24GB	7B-14B
MI250X	128GB	70B
MI300X	192GB	V3 全量

Apple Silicon

Apple Silicon 凭借统一内存架构，在大模型推理方面有着独特优势——可以用系统内存（最高 512GB）来加载模型。

芯片	统一内存	适用模型	预期速度
M2/M3 Pro	18-36GB	7B-14B	10-20 tokens/s
M2/M3 Max	32-96GB	14B-32B	15-25 tokens/s
M4 Pro	24-48GB	14B-32B	20-35 tokens/s
M4 Max	36-128GB	32B-70B	25-40 tokens/s
M4 Ultra	192-512GB	70B-V3 全量	30-50 tokens/s

内存（RAM）要求

即使你使用 GPU 推理，充足的系统内存对模型加载和上下文管理也非常重要：

7B 模型：最低 16GB，推荐 32GB
14B-32B 模型：最低 32GB，推荐 64GB
70B 模型：最低 64GB，推荐 128GB

方法一：Ollama 部署（最简单）

Ollama 是目前最简单的本地大模型部署工具，提供一键安装、一行命令即可运行模型的体验。

安装 Ollama

macOS：

# 使用 Homebrew 安装
brew install ollama

Linux：

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

Windows：

从 ollama.com/download 下载安装程序并运行。

下载并运行 DeepSeek 模型

# 运行 DeepSeek-R1 7B（推荐入门）
ollama run deepseek-r1:7b

# 运行 DeepSeek-R1 14B
ollama run deepseek-r1:14b

# 运行 DeepSeek-R1 32B（需要 24GB+ 显存）
ollama run deepseek-r1:32b

# 运行 DeepSeek-R1 70B（需要 48GB+ 显存或大内存 Mac）
ollama run deepseek-r1:70b

使用 Ollama API 接口

Ollama 默认在 localhost:11434 提供 API 服务，兼容 OpenAI API 格式：

import openai

# 创建客户端，指向本地 Ollama 服务
client = openai.OpenAI(
    base_url="http://localhost:11434/v1",  # Ollama 本地地址
    api_key="ollama"  # Ollama 不需要真实的 API Key
)

# 发送聊天请求
response = client.chat.completions.create(
    model="deepseek-r1:7b",  # 指定模型名称
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手。"},
        {"role": "user", "content": "解释一下什么是 Transformer 架构？"}
    ],
    temperature=0.7,  # 控制输出随机性
    max_tokens=2048   # 最大输出长度
)

# 打印回复内容
print(response.choices[0].message.content)

Ollama 常用命令

# 列出已下载的模型
ollama list

# 查看模型详细信息
ollama show deepseek-r1:7b

# 删除模型释放空间
ollama rm deepseek-r1:7b

# 后台启动 Ollama 服务
ollama serve

# 复制模型并重命名
ollama cp deepseek-r1:7b my-deepseek

# 查看正在运行的模型
ollama ps

Ollama 自定义 Modelfile

你可以通过 Modelfile 自定义模型行为：

# 创建文件 Modelfile
FROM deepseek-r1:7b

# 设置系统提示词
SYSTEM """你是一个专业的编程助手，擅长 Python 和 JavaScript。"""

# 调整模型参数
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

# 基于 Modelfile 创建自定义模型
ollama create my-coding-assistant -f Modelfile

# 运行自定义模型
ollama run my-coding-assistant

方法二：vLLM 部署（高性能推理）

vLLM 是一个高性能的 LLM 推理和服务框架，通过 PagedAttention 技术实现高效的显存管理，特别适合生产环境和高并发场景。

安装 vLLM

# 创建虚拟环境（推荐）
python -m venv vllm-env
source vllm-env/bin/activate

# 安装 vLLM（需要 NVIDIA GPU + CUDA 12.1+）
pip install vllm

启动 vLLM 推理服务

# 启动 OpenAI 兼容的 API 服务
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9 \
    --dtype auto \
    --trust-remote-code

vLLM 高级配置

# 多 GPU 张量并行（适用于大模型）
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --tensor-parallel-size 2 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.95 \
    --enable-prefix-caching \
    --host 0.0.0.0 \
    --port 8000

# 使用量化模型降低显存需求
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --quantization awq \
    --max-model-len 8192 \
    --host 0.0.0.0 \
    --port 8000

调用 vLLM API

import openai

# 连接到本地 vLLM 服务
client = openai.OpenAI(
    base_url="http://localhost:8000/v1",  # vLLM 本地地址
    api_key="not-needed"  # 本地部署无需 API Key
)

# 流式输出示例
stream = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    messages=[
        {"role": "user", "content": "用 Python 写一个快速排序算法"}
    ],
    stream=True,  # 开启流式输出
    temperature=0.3
)

# 逐字打印流式输出
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

vLLM vs Ollama 对比

特性	Ollama	vLLM
安装难度	非常简单	中等
性能	良好	优秀（高20-50%）
并发支持	基础	优秀（生产级）
显存效率	一般	优秀（PagedAttention）
Apple Silicon	完美支持	不支持
适用场景	个人使用、开发测试	生产环境、高并发

方法三：Docker 部署

Docker 部署提供了良好的环境隔离和可移植性，适合团队协作和生产部署。

使用 Ollama Docker 镜像

# 拉取 Ollama 官方 Docker 镜像
docker pull ollama/ollama

# CPU 模式运行
docker run -d \
    --name ollama \
    -v ollama_data:/root/.ollama \
    -p 11434:11434 \
    ollama/ollama

# NVIDIA GPU 模式运行（需要 nvidia-container-toolkit）
docker run -d \
    --name ollama-gpu \
    --gpus all \
    -v ollama_data:/root/.ollama \
    -p 11434:11434 \
    ollama/ollama

# 进入容器下载并运行模型
docker exec -it ollama-gpu ollama run deepseek-r1:7b

使用 Docker Compose 编排

创建 docker-compose.yml 文件：

version: '3.8'

services:
  # Ollama 推理服务
  ollama:
    image: ollama/ollama:latest
    container_name: deepseek-ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama   # 持久化模型数据
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all            # 使用所有可用 GPU
              capabilities: [gpu]
    restart: unless-stopped

  # Open WebUI - 提供网页聊天界面
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: deepseek-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434  # 连接到 Ollama 服务
    volumes:
      - webui_data:/app/backend/data
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama_data:    # 模型存储卷
  webui_data:     # WebUI 数据卷

# 启动所有服务
docker compose up -d

# 查看服务状态
docker compose ps

# 查看日志
docker compose logs -f ollama

# 停止服务
docker compose down

vLLM Docker 部署

# 使用 vLLM 官方 Docker 镜像
docker run -d \
    --name vllm-deepseek \
    --gpus all \
    -v huggingface_cache:/root/.cache/huggingface \
    -p 8000:8000 \
    vllm/vllm-openai:latest \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9

量化版本选择

量化是减少模型体积和显存需求的关键技术。不同量化精度在质量和资源消耗之间有不同的取舍。

量化精度对比

量化精度	模型体积（7B）	显存占用	质量损失	推理速度	适用场景
FP16（原始）	~14GB	~16GB	无	基准	质量优先、显存充足
8-bit (INT8)	~7GB	~9GB	极小	+10-20%	平衡之选
4-bit (Q4_K_M)	~4GB	~6GB	较小	+30-50%	显存有限的推荐选择
4-bit (Q4_0)	~3.8GB	~5.5GB	小	+40-60%	极限显存场景
3-bit	~2.8GB	~4.5GB	明显	+50-70%	不推荐，质量下降大
2-bit	~2GB	~3.5GB	严重	+60-80%	仅供测试

如何选择？

推荐策略：

显存 >= 模型 FP16 大小的 1.2 倍 → 使用 FP16，获得最佳质量
显存紧张但 > 模型 INT8 大小 → 使用 8-bit 量化
显存有限 → 使用 4-bit 量化（Q4_K_M），这是性价比最高的选择
极限场景 → 使用 Q4_0，接受轻微质量损失

Ollama 中的量化选择

# Ollama 默认使用 Q4_K_M 量化，适合大多数场景
ollama run deepseek-r1:7b

# 指定量化版本
ollama run deepseek-r1:7b-q8_0     # 8-bit 量化
ollama run deepseek-r1:7b-q4_K_M   # 4-bit 量化（默认）
ollama run deepseek-r1:7b-fp16      # FP16 原始精度

性能基准

以下是不同硬件配置下运行 DeepSeek 模型的实测性能数据（tokens/s，生成速度）：

DeepSeek-R1-7B (4-bit 量化)

硬件	首 Token 延迟	生成速度	备注
RTX 3060 12GB	~150ms	35-45 tokens/s	入门级GPU
RTX 4060 8GB	~120ms	45-55 tokens/s	性价比之选
RTX 4070 Ti 12GB	~80ms	60-75 tokens/s	推荐配置
RTX 4090 24GB	~50ms	90-110 tokens/s	顶级性能
M3 Pro 18GB	~200ms	18-25 tokens/s	MacBook Pro
M4 Pro 24GB	~150ms	28-35 tokens/s	新款 Mac
M4 Max 48GB	~100ms	35-45 tokens/s	高端 Mac

DeepSeek-R1-32B (4-bit 量化)

硬件	首 Token 延迟	生成速度	备注
RTX 4090 24GB	~200ms	25-35 tokens/s	刚好放下
A6000 48GB	~150ms	35-45 tokens/s	专业卡
2x RTX 4090	~180ms	40-55 tokens/s	双卡并行
M4 Max 64GB	~300ms	18-25 tokens/s	统一内存优势
M4 Ultra 192GB	~200ms	30-40 tokens/s	Mac 最强配置

DeepSeek-R1-70B (4-bit 量化)

硬件	首 Token 延迟	生成速度	备注
2x RTX 4090 48GB	~500ms	12-18 tokens/s	显存刚好够
A100 80GB	~300ms	25-35 tokens/s	数据中心级
2x A100 80GB	~200ms	40-55 tokens/s	高并发推荐
M4 Ultra 192GB	~400ms	15-22 tokens/s	一台 Mac 跑 70B

Apple Silicon (M4 Ultra) 上的表现

Apple M4 Ultra 是目前个人用户能获得的最强本地推理平台之一。192GB 统一内存让它能运行 70B 级别的模型，甚至可以尝试加载完整的 DeepSeek-V3。

M4 Ultra 的独特优势

统一内存架构：CPU 和 GPU 共享内存，无需数据拷贝，模型加载效率极高
超大内存带宽：M4 Ultra 的内存带宽高达 819.2 GB/s，显著提升推理速度
能效比极高：整机功耗仅 60-150W，远低于 NVIDIA GPU 方案
静音运行：Mac Studio 几乎无噪音，适合办公和家庭环境
开箱即用：Ollama 原生支持 Metal，无需配置 CUDA 环境

M4 Ultra 实测数据

测试环境：Mac Studio M4 Ultra, 192GB 统一内存, macOS 15.4

DeepSeek-R1-7B (Q4_K_M):
  ├── 加载时间: 1.2s
  ├── 首 Token: ~80ms
  ├── 生成速度: 42 tokens/s
  └── 内存占用: ~5GB

DeepSeek-R1-32B (Q4_K_M):
  ├── 加载时间: 8.5s
  ├── 首 Token: ~200ms
  ├── 生成速度: 32 tokens/s
  └── 内存占用: ~20GB

DeepSeek-R1-70B (Q4_K_M):
  ├── 加载时间: 25s
  ├── 首 Token: ~400ms
  ├── 生成速度: 18 tokens/s
  └── 内存占用: ~42GB

DeepSeek-V3-671B (Q4_K_M，实验性):
  ├── 加载时间: ~5min
  ├── 首 Token: ~3s
  ├── 生成速度: 2-4 tokens/s
  └── 内存占用: ~170GB

M4 Ultra 部署建议

# 安装 Ollama（已原生支持 Metal 加速）
brew install ollama

# 运行推荐的 32B 模型（M4 Ultra 的最佳平衡点）
ollama run deepseek-r1:32b

# 如果你有 192GB 内存，可以尝试 70B
ollama run deepseek-r1:70b

# 设置并发数以充分利用 M4 Ultra 的算力
OLLAMA_NUM_PARALLEL=4 ollama serve

与 API 调用的成本对比

场景一：个人开发者（每天约 5 万 tokens）

方案	月成本	年成本	备注
DeepSeek API	~$22	~$264	按量付费，灵活
Ollama + RTX 4060	~$5（电费）	$60 + $300（硬件）	第一年 $360，之后每年 $60
Ollama + M4 Pro Mac	~$3（电费）	$36 + $2,399（硬件）	长期看划算，但初始投入大

结论：个人轻度使用，API 更划算。

场景二：小团队（每天约 50 万 tokens）

方案	月成本	年成本	备注
DeepSeek API	~$220	~$2,640	稳定，无需维护
vLLM + RTX 4090	~$15（电费）	$180 + $1,600（硬件）	1年内回本
vLLM + A6000	~$20（电费）	$240 + $4,500（硬件）	更大模型、更好并发

结论：高频使用，本地部署 1 年内可回收硬件成本。

场景三：企业级（每天约 500 万 tokens）

方案	月成本	年成本	备注
DeepSeek API	~$2,200	~$26,400	可能有速率限制
vLLM + 4x A100	~$200（电费）	$2,400 + $60,000（硬件）	2年内回本，完全掌控
云 GPU（按需）	~$3,000	~$36,000	灵活，无需运维硬件

结论：企业级高频使用，自建推理集群长期最划算。

成本决策树

你的日均使用量？
├── < 1万 tokens → 用 API，不值得本地部署
├── 1-10万 tokens → 看隐私需求
│   ├── 需要隐私 → 本地部署（Ollama + 消费级GPU）
│   └── 不需要 → API 更方便
├── 10-100万 tokens → 本地部署开始有成本优势
│   ├── 个人/小团队 → Ollama + RTX 4090
│   └── 需要高并发 → vLLM + 专业GPU
└── > 100万 tokens → 强烈建议本地部署
    ├── 中等预算 → vLLM + 多卡消费级GPU
    └── 充足预算 → vLLM + A100/H100 集群

常见问题排解

问题 1：模型下载速度慢

# 设置 Ollama 使用镜像源（中国用户）
export OLLAMA_HOST=https://ollama.mirrors.example.com

# 或者手动下载模型后导入
ollama create deepseek-r1:7b -f /path/to/Modelfile

如果你有 HuggingFace 模型文件，也可以通过 Modelfile 指定本地 GGUF 文件路径。

问题 2：CUDA 内存不足（OOM）

# 降低 GPU 显存使用率
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --gpu-memory-utilization 0.8 \  # 从 0.9 降到 0.8
    --max-model-len 4096            # 减小上下文长度

# 或者使用更激进的量化
ollama run deepseek-r1:7b-q4_0  # 使用 Q4_0 代替 Q4_K_M

问题 3：Apple Silicon 上速度较慢

# 确保使用 Metal 加速（Ollama 默认启用）
# 检查是否正确使用 GPU
ollama run deepseek-r1:7b --verbose

# 关闭其他占用内存的应用，释放更多统一内存给模型
# 在活动监视器中检查内存压力

# 增加 Ollama 使用的 GPU 层数
OLLAMA_NUM_GPU=999 ollama run deepseek-r1:7b

问题 4：Docker 容器无法访问 GPU

# 安装 NVIDIA Container Toolkit
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# 验证 GPU 是否可用
docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi

# 如果仍有问题，检查 Docker daemon 配置
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

问题 5：模型输出质量不好

检查量化精度：如果使用了过低的量化（如 2-bit），质量会明显下降，建议至少使用 Q4_K_M
调整温度参数：代码任务用 0.1-0.3，对话用 0.5-0.7，创意写作用 0.8-1.0
检查系统提示词：确保系统提示词清晰明确
增加上下文长度：某些任务需要更长的上下文窗口

问题 6：多用户并发时响应变慢

# Ollama 设置并发数
OLLAMA_NUM_PARALLEL=4 ollama serve

# vLLM 已内置高效的并发处理
# 可以通过增加 GPU 数量来提升并发能力
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --tensor-parallel-size 2 \
    --max-num-seqs 32  # 最大并发序列数

总结

方案	适用人群	难度	性能	推荐指数
Ollama	个人开发者、初学者	★☆☆☆☆	★★★☆☆	★★★★★
vLLM	生产环境、高并发	★★★☆☆	★★★★★	★★★★☆
Docker	团队协作、标准化部署	★★☆☆☆	★★★★☆	★★★★☆

新手推荐路径：先用 Ollama 快速体验 → 需要更高性能时迁移到 vLLM → 需要标准化部署时用 Docker 封装。

本地部署 DeepSeek 模型并不复杂。选择合适的方案，几分钟内就能在你的设备上运行起强大的 AI 模型。开始你的本地 AI 之旅吧！

DeepSeek 本地部署完全指南：从入门到精通

DeepSeek 本地部署完全指南：从入门到精通

为什么选择本地部署？

数据隐私与安全

超低延迟

长期成本优势

离线可用

硬件要求

NVIDIA GPU

AMD GPU

Apple Silicon

内存（RAM）要求

方法一：Ollama 部署（最简单）

安装 Ollama

下载并运行 DeepSeek 模型

使用 Ollama API 接口

Ollama 常用命令

Ollama 自定义 Modelfile

方法二：vLLM 部署（高性能推理）

安装 vLLM

启动 vLLM 推理服务

vLLM 高级配置

调用 vLLM API

vLLM vs Ollama 对比

方法三：Docker 部署

使用 Ollama Docker 镜像

使用 Docker Compose 编排

vLLM Docker 部署

量化版本选择

量化精度对比

如何选择？

Ollama 中的量化选择

性能基准

DeepSeek-R1-7B (4-bit 量化)

DeepSeek-R1-32B (4-bit 量化)

DeepSeek-R1-70B (4-bit 量化)

Apple Silicon (M4 Ultra) 上的表现

M4 Ultra 的独特优势

M4 Ultra 实测数据

M4 Ultra 部署建议

与 API 调用的成本对比

场景一：个人开发者（每天约 5 万 tokens）

场景二：小团队（每天约 50 万 tokens）

场景三：企业级（每天约 500 万 tokens）

成本决策树

常见问题排解

问题 1：模型下载速度慢

问题 2：CUDA 内存不足（OOM）

问题 3：Apple Silicon 上速度较慢

问题 4：Docker 容器无法访问 GPU

问题 5：模型输出质量不好

问题 6：多用户并发时响应变慢

总结

立即体验 DeepSeek