张芷铭的个人博客

扩散模型假设所有 $x_t$ 为高斯分布,本质是为数学可解性与训练稳定性牺牲严格性的折中方案。

扩散过程的高斯分布假设本质

前向扩散过程定义为马尔可夫链,每一步通过高斯噪声扰动:

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t \mathbf{I})$$

其中 $\beta_t$ 控制噪声强度。$x_t$ 的条件分布是高斯分布,但边缘分布在 $t$ 较小时并非严格高斯分布,仍保留原始数据 $x_0$ 的多模态特征。

$t$ 较小时的实际分布与模型假设的差异

  • 真实分布的非高斯性:当 $t$ 接近 0 时,$x_t$ 是 $x_0$ 叠加少量噪声的结果,分布应接近原始数据的复杂多模态分布
  • 模型假设的简化目的
    • 数学可处理性:高斯分布的线性可加性、闭合解使前向/反向过程推导可行,$x_t$ 可直接由 $x_0$ 表示:$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$
    • 训练稳定性:高斯假设使损失函数(如 KL 散度)有闭式解,避免复杂分布的优化困难

高斯假设的合理性:渐近收敛与中心极限定理

  • 渐近高斯性:随着 $t$ 增大($\beta_t$ 递增),多次独立高斯噪声的叠加使 $x_T$ 收敛到标准高斯分布 $\mathcal{N}(0, \mathbf{I})$
  • 反向过程的可行性基础:若前向过程的高斯转移核足够小($\beta_t \ll 1$),则逆过程在 $t$ 较大时接近高斯分布,神经网络可通过参数化均值 $\mu_\theta$ 和方差 $\Sigma_\theta$ 拟合复杂映射

实践中的有效性证明

扩散模型在图像生成中的成功证明高斯假设虽为近似,但通过以下设计仍能有效建模复杂数据分布:

  1. 时间步相关的参数化:神经网络根据 $t$ 动态调整预测的噪声 $\epsilon_\theta(x_t, t)$,自适应不同 $t$ 下 $x_t$ 的分布特性
  2. 损失函数设计:通过最小化预测噪声与真实噪声的均方误差,间接拟合非高斯分布的转换过程

总结

高斯假设是实用性与理论妥协的结果

  • $t$ 较小时:$x_t$ 的真实分布确实非高斯,但高斯转移核提供平滑的扰动路径
  • 反向去噪的可行性:神经网络参数化高斯分布的均值和方差,能够学习从噪声到数据的复杂映射

生成效果验证表明,高斯分布足以作为复杂分布的有效代理,实现高质量生成。

Comments