张芷铭的个人博客

混合专家模型(MoE)通过稀疏激活机制,每次只激活部分专家网络,在不增加推理成本的情况下扩展模型容量。

Hugging Face MoE详解

核心原理

组件说明
专家网络多个独立的子网络(通常是FFN)
路由器决定每个token由哪些专家处理
稀疏激活每次只激活Top-k个专家

数学表达

$$\text{MoE}(x) = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$

其中$G(x)$为路由器输出(通常只保留Top-k),$E_i$为第$i$个专家。

关键优势

优势说明
参数效率总参数大,但激活参数小
计算效率推理时只计算被激活的专家
可扩展性可轻松增加专家数量

挑战

挑战解决方案
负载均衡添加辅助损失,鼓励均匀路由
通信开销专家并行,减少跨设备通信
训练稳定性路由器初始化、梯度裁剪

代表模型

模型专家数激活参数
Mixtral 8×7B813B
DeepSeek-V216021B
Qwen3.5-397B-17B

Comments