模型训练：FSDP 通俗解析（不废话版）

FSDP（Fully Sharded Data Parallel）是 PyTorch 官方的”显存救星”：把模型参数、梯度、优化器状态切片分到所有 GPU，每张卡只存 1/N，需要时临时凑齐、用完释放。让 80 GB 单卡也能训百亿/千亿参数模型。

为什么 DDP 不够

DDP 的致命问题：每张 GPU 都存完整的模型 + 梯度 + 优化器状态。

100 亿参数 FP32 模型：

冗余存储是大模型训练的核心瓶颈。

步骤	行为
初始化分片	把参数/梯度/优化器状态切成 N 份，每张 GPU 只存 1 份
前向传播	算到某模块时通过 `all-gather` 临时凑齐完整模块，算完立即释放
反向传播	同样凑齐算梯度，再 `reduce-scatter` 切片，每卡只留自己负责的梯度
优化器更新	每卡独立更新自己的参数分片，无需同步完整模型

一句话：用到时凑齐，用完就清空。

参数量小、单卡装得下时直接用 DDP，FSDP 的通信代价此时不划算。

FSDP 是 PyTorch 对 DeepSpeed ZeRO 思想的官方实现：