什么是 MoE(混合专家)架构?为什么它能省显存?

更新于 2025-07-01

MoE 是什么

MoE(Mixture of Experts,混合专家)是一种模型架构,核心思想是:模型有很多「专家」子网络,但每次推理只激活其中一小部分。 举个例子:DeepSeek-R1 有 671B 总参数,但每次只激活 37B。这意味着它的计算量和一个 37B 的 Dense 模型差不多,但因为有 671B 的知识储备,效果远超 37B 模型。 可以类比为一个大公司:有几百个员工(专家),但每个项目只需要几十个人参与。

MoE vs Dense 架构

Dense(稠密)架构:每次推理使用全部参数。比如 Llama 3.3 70B,每个 token 都要经过全部 70B 参数的计算。 MoE 架构:每次推理只激活部分参数。比如 Qwen3-235B-A22B,总参数 235B 但只激活 22B。 优势: • 同等计算量下,MoE 模型效果更好(因为总知识量更大) • 推理速度更快(只计算激活的参数) 劣势: • 显存需求按总参数算(所有专家都要加载到显存) • 训练更复杂 所以 MoE 模型的特点是:推理快、效果好,但显存需求大。

MoE 对本地部署的影响

关键点:MoE 模型的显存需求是按总参数量计算的,不是按激活参数量。 比如 DeepSeek-R1(671B MoE,激活 37B): • 推理计算量 ≈ 37B Dense 模型 • 显存需求 ≈ 671B Dense 模型 • Q4 量化需要约 366GB 显存 这就是为什么大部分 MoE 旗舰模型(DeepSeek-R1、Qwen3-235B)对消费级硬件来说太大了。但好消息是,厂商也在出小型 MoE,比如 Qwen3.5-35B-A3B,总参数 35B 只激活 3B,Q4 量化只需 14GB 显存,单卡 4060 Ti 就能跑。