- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

AdaLN 动态生成 LayerNorm 的缩放和平移参数，是扩散模型中高效融合条件信息的核心组件。

核心原理

标准 LayerNorm 固定 $\gamma$ 和 $\beta$：

$$\text{LN}(x) = \gamma \left( \frac{x - \mu}{\sigma} \right) + \beta$$

AdaLN 将 $\gamma$ 和 $\beta$ 替换为由条件信息动态生成的参数：

$$\text{AdaLN}(x; c) = \gamma_c \left( \frac{x - \mu}{\sigma} \right) + \beta_c$$

$c$：条件信息（时间步、文本嵌入、类别标签）
$\gamma_c, \beta_c$：通过 MLP 从 $c$ 生成

AdaLN-Zero

DiT 论文提出的工业级变体：

额外引入残差缩放因子 $\alpha_c$（初始化为 0）
实现恒等映射初始化，提升深层网络训练稳定性

$$x_{\text{out}} = \alpha_c \cdot \text{AdaLN}(x; c) + x$$

条件注入方式对比

方法	计算开销	效果
In-context Conditioning	低	中等
Cross-Attention	高（+15%）	较好
AdaLN	最低	最佳

核心优势

优势	说明
计算高效	比交叉注意力减少 15% 计算量
训练稳定	零初始化残差缩放加速收敛
多模态适配	可融合时间步、文本、标签等多源条件
微调高效	DiffFit 仅微调 0.12% 参数

典型应用

场景	模型
图像生成	DiT、Stable Diffusion 3
视频生成	Wan2.2、Sora
参数高效微调	DiffFit

Comments