什么是 GGUF?AI 模型量化格式入门指南

更新于 2025-07-01

GGUF 是什么

GGUF(GPT-Generated Unified Format)是由 llama.cpp 项目开发的 AI 模型文件格式。它取代了早期的 GGML 格式,成为本地运行大语言模型的事实标准。GGUF 文件包含了模型的权重参数、分词器配置和元数据,一个文件就能完整描述一个模型。 相比 PyTorch 的 .pt 或 Hugging Face 的 safetensors 格式,GGUF 的最大优势是支持 CPU 推理和各种量化精度,让消费级硬件也能运行大模型。

量化等级怎么选

GGUF 支持多种量化等级,常见的有: • Q2_K(2-bit):体积最小,质量损失较大,适合显存极度紧张的场景 • Q4_K_M(4-bit):最佳性价比,质量损失可接受,推荐大多数用户使用 • Q5_K_M(5-bit):质量和体积的良好平衡 • Q6_K(6-bit):接近原始精度,适合对质量有要求的场景 • Q8_0(8-bit):几乎无损,但体积是 Q4 的两倍 • F16(16-bit):无损精度,需要大量显存 一般建议:显存够用就选 Q4_K_M,追求质量选 Q6_K 或 Q8_0。

GGUF 和其他格式的区别

• safetensors:Hugging Face 的安全张量格式,主要用于 GPU 推理(vLLM、TGI 等),不支持 CPU 推理 • GPTQ:另一种量化格式,需要 GPU,量化过程需要校准数据 • AWQ:激活感知量化,质量通常优于 GPTQ,但同样需要 GPU • GGUF:支持 CPU + GPU 混合推理,量化过程简单,生态最丰富 如果你用 llama.cpp、ollama、LM Studio 等工具本地跑模型,GGUF 是唯一选择。

如何使用 GGUF 模型

最简单的方式是使用 Ollama: 1. 安装 Ollama(ollama.com) 2. 运行命令:ollama run qwen3:8b 3. 开始对话 Ollama 会自动下载对应的 GGUF 模型并选择合适的量化版本。 如果想手动选择量化版本,可以从 Hugging Face 或 ModelScope 下载 GGUF 文件,然后用 llama.cpp 的 llama-server 加载。