什么是 GGUF?AI 模型量化格式入门指南
更新于 2025-07-01
GGUF 是什么
GGUF(GPT-Generated Unified Format)是由 llama.cpp 项目开发的 AI 模型文件格式。它取代了早期的 GGML 格式,成为本地运行大语言模型的事实标准。GGUF 文件包含了模型的权重参数、分词器配置和元数据,一个文件就能完整描述一个模型。
相比 PyTorch 的 .pt 或 Hugging Face 的 safetensors 格式,GGUF 的最大优势是支持 CPU 推理和各种量化精度,让消费级硬件也能运行大模型。
量化等级怎么选
GGUF 支持多种量化等级,常见的有:
• Q2_K(2-bit):体积最小,质量损失较大,适合显存极度紧张的场景
• Q4_K_M(4-bit):最佳性价比,质量损失可接受,推荐大多数用户使用
• Q5_K_M(5-bit):质量和体积的良好平衡
• Q6_K(6-bit):接近原始精度,适合对质量有要求的场景
• Q8_0(8-bit):几乎无损,但体积是 Q4 的两倍
• F16(16-bit):无损精度,需要大量显存
一般建议:显存够用就选 Q4_K_M,追求质量选 Q6_K 或 Q8_0。
GGUF 和其他格式的区别
• safetensors:Hugging Face 的安全张量格式,主要用于 GPU 推理(vLLM、TGI 等),不支持 CPU 推理
• GPTQ:另一种量化格式,需要 GPU,量化过程需要校准数据
• AWQ:激活感知量化,质量通常优于 GPTQ,但同样需要 GPU
• GGUF:支持 CPU + GPU 混合推理,量化过程简单,生态最丰富
如果你用 llama.cpp、ollama、LM Studio 等工具本地跑模型,GGUF 是唯一选择。
如何使用 GGUF 模型
最简单的方式是使用 Ollama:
1. 安装 Ollama(ollama.com)
2. 运行命令:ollama run qwen3:8b
3. 开始对话
Ollama 会自动下载对应的 GGUF 模型并选择合适的量化版本。
如果想手动选择量化版本,可以从 Hugging Face 或 ModelScope 下载 GGUF 文件,然后用 llama.cpp 的 llama-server 加载。