AdaLN 动态生成 LayerNorm 的缩放和平移参数,是扩散模型中高效融合条件信息的核心组件。
核心原理
标准 LayerNorm 固定 $\gamma$ 和 $\beta$:
$$\text{LN}(x) = \gamma \left( \frac{x - \mu}{\sigma} \right) + \beta$$
AdaLN 将 $\gamma$ 和 $\beta$ 替换为由条件信息动态生成的参数:
$$\text{AdaLN}(x; c) = \gamma_c \left( \frac{x - \mu}{\sigma} \right) + \beta_c$$
- $c$:条件信息(时间步、文本嵌入、类别标签)
- $\gamma_c, \beta_c$:通过 MLP 从 $c$ 生成
AdaLN-Zero
DiT 论文提出的工业级变体:
- 额外引入残差缩放因子 $\alpha_c$(初始化为 0)
- 实现恒等映射初始化,提升深层网络训练稳定性
$$x_{\text{out}} = \alpha_c \cdot \text{AdaLN}(x; c) + x$$
条件注入方式对比
| 方法 | 计算开销 | 效果 |
|---|---|---|
| In-context Conditioning | 低 | 中等 |
| Cross-Attention | 高(+15%) | 较好 |
| AdaLN | 最低 | 最佳 |
核心优势
| 优势 | 说明 |
|---|---|
| 计算高效 | 比交叉注意力减少 15% 计算量 |
| 训练稳定 | 零初始化残差缩放加速收敛 |
| 多模态适配 | 可融合时间步、文本、标签等多源条件 |
| 微调高效 | DiffFit 仅微调 0.12% 参数 |
典型应用
| 场景 | 模型 |
|---|---|
| 图像生成 | DiT、Stable Diffusion 3 |
| 视频生成 | Wan2.2、Sora |
| 参数高效微调 | DiffFit |
张芷铭的个人博客
Comments