什么是 MoE（混合专家）架构？为什么它能省显存？

更新于 2025-07-01 · 预计阅读 2 分钟

知识库阅读进度25%

MoE 是什么

MoE（Mixture of Experts，混合专家）是一种模型架构，核心思想是：模型有很多「专家」子网络，但每次推理只激活其中一小部分。举个例子：DeepSeek-R1 有 671B 总参数，但每次只激活 37B。这意味着它的计算量和一个 37B 的 Dense 模型差不多，但因为有 671B 的知识储备，效果远超 37B 模型。可以类比为一个大公司：有几百个员工（专家），但每个项目只需要几十个人参与。

MoE vs Dense 架构

Dense（稠密）架构：每次推理使用全部参数。比如 Llama 3.3 70B，每个 token 都要经过全部 70B 参数的计算。 MoE 架构：每次推理只激活部分参数。比如 Qwen3-235B-A22B，总参数 235B 但只激活 22B。优势： • 同等计算量下，MoE 模型效果更好（因为总知识量更大） • 推理速度更快（只计算激活的参数）劣势： • 显存需求按总参数算（所有专家都要加载到显存） • 训练更复杂所以 MoE 模型的特点是：推理快、效果好，但显存需求大。

MoE 对本地部署的影响

关键点：MoE 模型的显存需求是按总参数量计算的，不是按激活参数量。比如 DeepSeek-R1（671B MoE，激活 37B）： • 推理计算量 ≈ 37B Dense 模型 • 显存需求 ≈ 671B Dense 模型 • Q4 量化需要约 366GB 显存这就是为什么大部分 MoE 旗舰模型（DeepSeek-R1、Qwen3-235B）对消费级硬件来说太大了。但好消息是，厂商也在出小型 MoE：Qwen3.5-35B-A3B 总参数 35B、激活 3B，本站按可部署 GGUF 标定 Q4 约 14GB；Qwen3.6-35B-A3B 同结构但按总参 × 系数估算 Q4 约 21GB，更适合 16GB～24GB 档显卡。

你已经看完这篇，下一步看这个

按显存选模型：4GB / 8GB / 12GB / 16GB / 24GB 推荐方案

不同显存能跑什么模型？本文按显存大小给出具体的模型推荐和量化方案，帮你快速找到最适合自己硬件的 AI 模型。

上下文长度是什么？128K 和 4K 差别有多大？

上下文长度决定了 AI 模型一次能「看到」多少内容。本文解释上下文的概念、对使用体验的影响，以及它如何额外消耗显存。

返回指南目录查看按显存推荐