张芷铭的个人博客

AdaLN 动态生成 LayerNorm 的缩放和平移参数,是扩散模型中高效融合条件信息的核心组件。

核心原理

标准 LayerNorm 固定 $\gamma$ 和 $\beta$:

$$\text{LN}(x) = \gamma \left( \frac{x - \mu}{\sigma} \right) + \beta$$

AdaLN 将 $\gamma$ 和 $\beta$ 替换为由条件信息动态生成的参数:

$$\text{AdaLN}(x; c) = \gamma_c \left( \frac{x - \mu}{\sigma} \right) + \beta_c$$

  • $c$:条件信息(时间步、文本嵌入、类别标签)
  • $\gamma_c, \beta_c$:通过 MLP 从 $c$ 生成

AdaLN-Zero

DiT 论文提出的工业级变体:

  • 额外引入残差缩放因子 $\alpha_c$(初始化为 0)
  • 实现恒等映射初始化,提升深层网络训练稳定性

$$x_{\text{out}} = \alpha_c \cdot \text{AdaLN}(x; c) + x$$

条件注入方式对比

方法计算开销效果
In-context Conditioning中等
Cross-Attention高(+15%)较好
AdaLN最低最佳

核心优势

优势说明
计算高效比交叉注意力减少 15% 计算量
训练稳定零初始化残差缩放加速收敛
多模态适配可融合时间步、文本、标签等多源条件
微调高效DiffFit 仅微调 0.12% 参数

典型应用

场景模型
图像生成DiT、Stable Diffusion 3
视频生成Wan2.2、Sora
参数高效微调DiffFit

Comments