- 张芷铭的个人博客

张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

扩散模型假设所有 $x_t$ 为高斯分布，本质是为数学可解性与训练稳定性牺牲严格性的折中方案。

扩散过程的高斯分布假设本质

前向扩散过程定义为马尔可夫链，每一步通过高斯噪声扰动：

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t \mathbf{I})$$

其中 $\beta_t$ 控制噪声强度。$x_t$ 的条件分布是高斯分布，但边缘分布在 $t$ 较小时并非严格高斯分布，仍保留原始数据 $x_0$ 的多模态特征。

$t$ 较小时的实际分布与模型假设的差异

真实分布的非高斯性：当 $t$ 接近 0 时，$x_t$ 是 $x_0$ 叠加少量噪声的结果，分布应接近原始数据的复杂多模态分布
模型假设的简化目的：
- 数学可处理性：高斯分布的线性可加性、闭合解使前向/反向过程推导可行，$x_t$ 可直接由 $x_0$ 表示：$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$
- 训练稳定性：高斯假设使损失函数（如 KL 散度）有闭式解，避免复杂分布的优化困难

高斯假设的合理性：渐近收敛与中心极限定理

渐近高斯性：随着 $t$ 增大（$\beta_t$ 递增），多次独立高斯噪声的叠加使 $x_T$ 收敛到标准高斯分布 $\mathcal{N}(0, \mathbf{I})$
反向过程的可行性基础：若前向过程的高斯转移核足够小（$\beta_t \ll 1$），则逆过程在 $t$ 较大时接近高斯分布，神经网络可通过参数化均值 $\mu_\theta$ 和方差 $\Sigma_\theta$ 拟合复杂映射

实践中的有效性证明

扩散模型在图像生成中的成功证明高斯假设虽为近似，但通过以下设计仍能有效建模复杂数据分布：

时间步相关的参数化：神经网络根据 $t$ 动态调整预测的噪声 $\epsilon_\theta(x_t, t)$，自适应不同 $t$ 下 $x_t$ 的分布特性
损失函数设计：通过最小化预测噪声与真实噪声的均方误差，间接拟合非高斯分布的转换过程

总结

高斯假设是实用性与理论妥协的结果：

$t$ 较小时：$x_t$ 的真实分布确实非高斯，但高斯转移核提供平滑的扰动路径
反向去噪的可行性：神经网络参数化高斯分布的均值和方差，能够学习从噪声到数据的复杂映射

生成效果验证表明，高斯分布足以作为复杂分布的有效代理，实现高质量生成。

Comments