显存是什么?跑 AI 模型需要多少显存?
更新于 2025-07-01
显存和内存的区别
显存(VRAM,Video RAM)是显卡上的专用内存,和电脑的主内存(RAM)是两回事。
• 内存(RAM):CPU 使用,一般 16GB-64GB,速度约 50GB/s
• 显存(VRAM):GPU 使用,一般 4GB-24GB(消费级),速度可达 300-1000GB/s
跑 AI 模型时,模型权重需要加载到显存中。显存不够,模型就跑不了(或者只能用 CPU 跑,速度会慢 10-50 倍)。
怎么估算模型需要多少显存
一个简单的公式:
显存需求 ≈ 参数量 × 每参数字节数 × 1.1(预留 10% 给 KV Cache)
举例:
• 7B 模型 Q4 量化:7 × 0.5 × 1.1 ≈ 3.85 GB
• 7B 模型 F16 精度:7 × 2 × 1.1 ≈ 15.4 GB
• 70B 模型 Q4 量化:70 × 0.5 × 1.1 ≈ 38.5 GB
每参数字节数:Q4 ≈ 0.5 字节,Q8 ≈ 1 字节,F16 ≈ 2 字节。
这就是为什么量化这么重要——同一个模型,Q4 量化只需要 F16 的四分之一显存。
主流消费级显卡显存对比
NVIDIA 显卡:
• RTX 4060 / 4060 Ti 8GB:能跑 7B Q4
• RTX 4060 Ti 16GB:能跑 14B Q4 或 7B Q8
• RTX 4070 Ti Super 16GB:同上,但推理更快
• RTX 4080 Super 16GB:同上,速度更快
• RTX 4090 24GB:能跑 32B Q4 或 14B Q8
• RTX 5090 32GB:能跑 32B Q6 或 70B Q2
AMD 显卡:
• RX 7900 XTX 24GB:显存够用,但 ROCm 生态不如 NVIDIA
苹果 M 系列:
• M1/M2/M3/M4 统一内存可以当显存用,16GB 起步就能跑不少模型
显存不够怎么办
几个思路:
1. 选更小的量化版本:Q8 跑不了就试 Q4,Q4 不行试 Q2
2. 选更小的模型:70B 跑不了就用 32B 或 14B
3. CPU 推理:llama.cpp 支持纯 CPU 运行,速度慢但能跑
4. CPU + GPU 混合:把一部分层放 GPU,一部分放 CPU
5. 多卡并行:如果有多张显卡,可以把模型分到多张卡上
6. 用云服务:实在跑不了就用 API,比如 DeepSeek、通义千问的在线服务