混合专家模型(MoE)通过稀疏激活机制,每次只激活部分专家网络,在不增加推理成本的情况下扩展模型容量。
核心原理
| 组件 | 说明 |
|---|---|
| 专家网络 | 多个独立的子网络(通常是FFN) |
| 路由器 | 决定每个token由哪些专家处理 |
| 稀疏激活 | 每次只激活Top-k个专家 |
数学表达
$$\text{MoE}(x) = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$
其中$G(x)$为路由器输出(通常只保留Top-k),$E_i$为第$i$个专家。
关键优势
| 优势 | 说明 |
|---|---|
| 参数效率 | 总参数大,但激活参数小 |
| 计算效率 | 推理时只计算被激活的专家 |
| 可扩展性 | 可轻松增加专家数量 |
挑战
| 挑战 | 解决方案 |
|---|---|
| 负载均衡 | 添加辅助损失,鼓励均匀路由 |
| 通信开销 | 专家并行,减少跨设备通信 |
| 训练稳定性 | 路由器初始化、梯度裁剪 |
代表模型
| 模型 | 专家数 | 激活参数 |
|---|---|---|
| Mixtral 8×7B | 8 | 13B |
| DeepSeek-V2 | 160 | 21B |
| Qwen3.5-397B | - | 17B |
张芷铭的个人博客
Comments