- 张芷铭的个人博客

全量激活重计算（Full Activation Recomputation）是大模型训练中最彻底的"用算力换显存"技术：前向只保留每层输入，反向时整层重跑前向再算梯度。

核心原理

不存中间激活，反向时整层重算，把显存压力转化为计算开销。

训练大模型时，激活显存是最大瓶颈之一：

前向传播：

反向传播：

策略	做法	显存节省	计算overhead	适用场景
全量重计算	每层只存输入，反向整层重算	最大	最高（+30%~40%）	显存极度紧张
部分重计算	仅前N层重算	中等	中等	显存略紧
选择性重计算	只重算高显存模块（如Attention）	高	低（+10%~20%）	主流选择

优点：

缺点：

1
2
3
--recompute-activations \
--recompute-granularity full \
--recompute-method uniform

1
2
3
4
5
from torch.utils.checkpoint import checkpoint

model = checkpoint(model, input)
# 或每层单独wrap
layer = checkpoint_wrapper(layer)

1
2
activations_checkpoint_granularity: full
activations_checkpoint_method: block

全量激活重计算是大模型训练的显存兜底方案：用30%~40%的速度代价，换取激活显存的极致压缩，让超大模型/长序列训练成为可能。