模型训练：专家并行（通俗易懂版）

专家并行（Expert Parallelism, EP）是 MoE 架构的标配并行策略：把大模型拆成 N 个独立”专家”分布到不同 GPU，路由器为每个 token 选少量专家激活。突破”单卡装不下 + 算力浪费”的双重瓶颈。

三步原理

拆分专家：把稠密大模型替换为 N 个独立专家（小型 FFN 网络），每个专家放在不同 GPU，单卡只存自己负责的那一部分
路由分配：每个输入 token 经过路由器（一个小 MLP），打分后选 top-k（通常 k=1 或 2）专家；通过 All-to-All 通信把 token 送到目标 GPU
稀疏激活 + 汇总：只有被选中的专家参与计算，结果再次 All-to-All 送回原 GPU 拼接

稀疏激活是 MoE 的精髓：模型规模可达万亿参数，单步计算量却只随激活的 k 个专家增长。

DP 解决”数据多”；TP/PP 解决”模型大”；EP 解决”模型超大且希望计算稀疏”。

如果路由器总把 token 分给少数专家，会导致几张 GPU 过载、其他闲置。解决：

每个 token 要经过两次 All-to-All（送出/收回），通信量随 batch 与专家数增长。要点：