混合专家模型 MoE

混合专家模型（MoE）通过稀疏激活机制，每次只激活部分专家网络，在不增加推理成本的情况下扩展模型容量。

Hugging Face MoE详解

核心原理

组件	说明
专家网络	多个独立的子网络（通常是FFN）
路由器	决定每个token由哪些专家处理
稀疏激活	每次只激活Top-k个专家

数学表达

$MoE (x) = \sum_{i = 1}^{N} G (x)_{i} \cdot E_{i} (x)$

其中 $G (x)$ 为路由器输出（通常只保留Top-k）， $E_{i}$ 为第 $i$ 个专家。

关键优势

优势	说明
参数效率	总参数大，但激活参数小
计算效率	推理时只计算被激活的专家
可扩展性	可轻松增加专家数量

挑战

挑战	解决方案
负载均衡	添加辅助损失，鼓励均匀路由
通信开销	专家并行，减少跨设备通信
训练稳定性	路由器初始化、梯度裁剪

代表模型

模型	专家数	激活参数
Mixtral 8×7B	8	13B
DeepSeek-V2	160	21B
Qwen3.5-397B	-	17B