混合专家模型(MoE)通过稀疏激活机制,每次只激活部分专家网络,在不增加推理成本的情况下扩展模型容量。

Hugging Face MoE详解

核心原理

组件说明
专家网络多个独立的子网络(通常是FFN)
路由器决定每个token由哪些专家处理
稀疏激活每次只激活Top-k个专家

数学表达

其中为路由器输出(通常只保留Top-k),为第个专家。

关键优势

优势说明
参数效率总参数大,但激活参数小
计算效率推理时只计算被激活的专家
可扩展性可轻松增加专家数量

挑战

挑战解决方案
负载均衡添加辅助损失,鼓励均匀路由
通信开销专家并行,减少跨设备通信
训练稳定性路由器初始化、梯度裁剪

代表模型

模型专家数激活参数
Mixtral 8×7B813B
DeepSeek-V216021B
Qwen3.5-397B-17B