什么是 GGUF？AI 模型量化格式入门指南

更新于 2025-07-01 · 预计阅读 2 分钟

知识库阅读进度8%

GGUF 是什么

GGUF（GPT-Generated Unified Format）是由 llama.cpp 项目开发的 AI 模型文件格式。它取代了早期的 GGML 格式，成为本地运行大语言模型的事实标准。GGUF 文件包含了模型的权重参数、分词器配置和元数据，一个文件就能完整描述一个模型。相比 PyTorch 的 .pt 或 Hugging Face 的 safetensors 格式，GGUF 的最大优势是支持 CPU 推理和各种量化精度，让消费级硬件也能运行大模型。

量化等级怎么选

GGUF 支持多种量化等级，常见的有： • Q2_K（2-bit）：体积最小，质量损失较大，适合显存极度紧张的场景 • Q4_K_M（4-bit）：最佳性价比，质量损失可接受，推荐大多数用户使用 • Q5_K_M（5-bit）：质量和体积的良好平衡 • Q6_K（6-bit）：接近原始精度，适合对质量有要求的场景 • Q8_0（8-bit）：几乎无损，但体积是 Q4 的两倍 • F16（16-bit）：无损精度，需要大量显存一般建议：显存够用就选 Q4_K_M，追求质量选 Q6_K 或 Q8_0。

GGUF 和其他格式的区别

• safetensors：Hugging Face 的安全张量格式，主要用于 GPU 推理（vLLM、TGI 等），不支持 CPU 推理 • GPTQ：另一种量化格式，需要 GPU，量化过程需要校准数据 • AWQ：激活感知量化，质量通常优于 GPTQ，但同样需要 GPU • GGUF：支持 CPU + GPU 混合推理，量化过程简单，生态最丰富如果你用 llama.cpp、ollama、LM Studio 等工具本地跑模型，GGUF 是唯一选择。

如何使用 GGUF 模型

最简单的方式是使用 Ollama： 1. 安装 Ollama（ollama.com） 2. 运行命令：ollama run qwen3:8b 3. 开始对话 Ollama 会自动下载对应的 GGUF 模型并选择合适的量化版本。如果想手动选择量化版本，可以从 Hugging Face 或 ModelScope 下载 GGUF 文件，然后用 llama.cpp 的 llama-server 加载。

你已经看完这篇，下一步看这个

什么是模型量化？Q4、Q8、F16 到底是什么意思？

量化是让大模型跑在消费级硬件上的关键技术。本文用通俗的语言解释量化的原理、不同量化等级的区别，以及如何选择。

Ollama 入门：最简单的本地 AI 模型运行方式

Ollama 让本地运行 AI 模型变得像安装 App 一样简单。本文介绍 Ollama 的安装、使用和常见问题。

返回指南目录查看按显存推荐