模型训练：Ulysses Sequence Parallel 通俗解析

Ulysses（DeepSpeed 提出）专门解决超长序列训练的显存与通信瓶颈。两个核心创新：环形切分拉平因果掩码下的负载不均；All-to-All 通信让单卡通信量与序列长度无关。能在数十张卡上轻松扛百万级 token。

为什么需要 Ulysses

序列越长，注意力激活值占用呈平方级增长。单张 80 GB H100 处理几万 token 就吃紧，百万级 token 完全无能为力。

传统并行方式都解决不了：

策略	短板
数据并行	只切 batch，激活值单卡仍要存完整
张量并行	切隐藏维度，对序列长度无效
传统序列并行	All-Gather 通信量随序列线性增长；因果掩码导致负载不均

传统按顺序切：第 8 张 GPU 拿到序列尾部，因果掩码下要关注前面所有 token，计算量数倍于第 1 张 GPU。

Ulysses 按 token_id mod N 切分（每 N 个 token 取一个），每张 GPU 都均匀持有”靠前”和”靠后”的 token，计算量自动拉平。

传统 All-Gather：每张 GPU 把完整 K/V 汇总到一起，通信量随序列线性增长。

Ulysses 用 All-to-All：每张 GPU 只交换”自己负责的注意力头” × “全局序列”那块数据。当序列长度与 GPU 数量按比例增长时，单卡通信量保持常数。

以 8 张 GPU、100 万 token 为例：

短序列任务无需启用，普通 DDP/FSDP 更直接高效。