- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

混合专家模型（MoE）通过稀疏激活机制，每次只激活部分专家网络，在不增加推理成本的情况下扩展模型容量。

Hugging Face MoE详解

核心原理

组件	说明
专家网络	多个独立的子网络（通常是FFN）
路由器	决定每个token由哪些专家处理
稀疏激活	每次只激活Top-k个专家

数学表达

$$\text{MoE}(x) = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$

其中$G(x)$为路由器输出（通常只保留Top-k），$E_i$为第$i$个专家。

关键优势

优势	说明
参数效率	总参数大，但激活参数小
计算效率	推理时只计算被激活的专家
可扩展性	可轻松增加专家数量

挑战

挑战	解决方案
负载均衡	添加辅助损失，鼓励均匀路由
通信开销	专家并行，减少跨设备通信
训练稳定性	路由器初始化、梯度裁剪

代表模型

模型	专家数	激活参数
Mixtral 8×7B	8	13B
DeepSeek-V2	160	21B
Qwen3.5-397B	-	17B

Comments