显存是什么？跑 AI 模型需要多少显存？

更新于 2025-07-01 · 预计阅读 2 分钟

知识库阅读进度17%

显存和内存的区别

显存（VRAM，Video RAM）是显卡上的专用内存，和电脑的主内存（RAM）是两回事。 • 内存（RAM）：CPU 使用，一般 16GB-64GB，速度约 50GB/s • 显存（VRAM）：GPU 使用，一般 4GB-24GB（消费级），速度可达 300-1000GB/s 跑 AI 模型时，模型权重需要加载到显存中。显存不够，模型就跑不了（或者只能用 CPU 跑，速度会慢 10-50 倍）。

怎么估算模型需要多少显存

一个简单的公式：显存需求 ≈ 参数量 × 每参数字节数 × 1.1（预留 10% 给 KV Cache）举例： • 7B 模型 Q4 量化：7 × 0.5 × 1.1 ≈ 3.85 GB • 7B 模型 F16 精度：7 × 2 × 1.1 ≈ 15.4 GB • 70B 模型 Q4 量化：70 × 0.5 × 1.1 ≈ 38.5 GB 每参数字节数：Q4 ≈ 0.5 字节，Q8 ≈ 1 字节，F16 ≈ 2 字节。这就是为什么量化这么重要——同一个模型，Q4 量化只需要 F16 的四分之一显存。

主流消费级显卡显存对比

NVIDIA 显卡： • RTX 4060 / 4060 Ti 8GB：能跑 7B Q4 • RTX 4060 Ti 16GB：能跑 14B Q4 或 7B Q8 • RTX 4070 Ti Super 16GB：同上，但推理更快 • RTX 4080 Super 16GB：同上，速度更快 • RTX 4090 24GB：能跑 32B Q4 或 14B Q8 • RTX 5090 32GB：能跑 32B Q6 或 70B Q2 AMD 显卡： • RX 7900 XTX 24GB：显存够用，但 ROCm 生态不如 NVIDIA 苹果 M 系列： • M1/M2/M3/M4 统一内存可以当显存用，16GB 起步就能跑不少模型

显存不够怎么办

几个思路： 1. 选更小的量化版本：Q8 跑不了就试 Q4，Q4 不行试 Q2 2. 选更小的模型：70B 跑不了就用 32B 或 14B 3. CPU 推理：llama.cpp 支持纯 CPU 运行，速度慢但能跑 4. CPU + GPU 混合：把一部分层放 GPU，一部分放 CPU 5. 多卡并行：如果有多张显卡，可以把模型分到多张卡上 6. 用云服务：实在跑不了就用 API，比如 DeepSeek、通义千问的在线服务

显存是什么？跑 AI 模型需要多少显存？

显存和内存的区别

怎么估算模型需要多少显存

主流消费级显卡显存对比

显存不够怎么办

你已经看完这篇，下一步看这个

什么是 GGUF？AI 模型量化格式入门指南

什么是 MoE（混合专家）架构？为什么它能省显存？

什么是模型量化？Q4、Q8、F16 到底是什么意思？