AllReduce 是分布式训练梯度同步的核心操作，让所有节点获得相同的全局归约结果。

核心定义

AllReduce = All（所有节点）+ Reduce（归约）

本质：所有节点先做归约操作（求和/平均/最大值），再将结果广播给所有节点。

多 GPU 训练场景

场景	梯度处理
单 GPU	本地梯度直接更新参数
多 GPU	需汇总所有 GPU 梯度后同步更新

初始：GPU0 梯度=1，GPU1=2，GPU2=3

核心改进：无主节点瓶颈，通信量降至 1/N。

1
2
3
4
5
阶段1 Scatter-Reduce：
GPU0 → GPU1 → GPU2 → GPU0（逐步累加）

阶段2 AllGather：
GPU0 → GPU1 → GPU2 → GPU0（广播全局结果）