AI 模型知识库
本地跑 AI 模型,这些知识你得知道
什么是 GGUF?AI 模型量化格式入门指南
GGUF 是目前最流行的本地 AI 模型格式。本文介绍 GGUF 的由来、结构、优势,以及如何选择合适的量化版本。
GGUF量化格式llama.cpp本地部署更新于 2025-07-01
显存是什么?跑 AI 模型需要多少显存?
显存(VRAM)是决定你能否本地运行 AI 模型的关键因素。本文解释显存的概念、如何计算模型所需显存,以及不同显卡的显存对比。
显存VRAMGPU显卡更新于 2025-07-01
什么是 MoE(混合专家)架构?为什么它能省显存?
MoE 是当前大模型的主流架构之一。本文解释 MoE 的工作原理、为什么 DeepSeek 和 Qwen 都在用它,以及它对本地部署的影响。
MoE混合专家Mixture of ExpertsDeepSeek更新于 2025-07-01
什么是模型量化?Q4、Q8、F16 到底是什么意思?
量化是让大模型跑在消费级硬件上的关键技术。本文用通俗的语言解释量化的原理、不同量化等级的区别,以及如何选择。
量化QuantizationQ4_K_MQ8_0更新于 2025-07-01
本地部署 vs 云端 API:哪种方式更适合你?
本地跑模型和调用云端 API 各有优劣。本文从成本、隐私、速度、质量等维度对比两种方案,帮你做出选择。
本地部署云端APIAI部署隐私更新于 2025-07-01
Ollama 入门:最简单的本地 AI 模型运行方式
Ollama 让本地运行 AI 模型变得像安装 App 一样简单。本文介绍 Ollama 的安装、使用和常见问题。
Ollama本地部署AI模型安装教程更新于 2025-07-01