扩散模型中的高斯假设合理性回答

扩散模型假设所有 $x_{t}$ 为高斯分布，本质是为数学可解性与训练稳定性牺牲严格性的折中方案。

扩散过程的高斯分布假设本质

前向扩散过程定义为马尔可夫链，每一步通过高斯噪声扰动：

$q (x_{t} ∣ x_{t - 1}) = N (x_{t}; 1 - β_{t} x_{t - 1}, β_{t} I)$

其中 $β_{t}$ 控制噪声强度。 $x_{t}$ 的条件分布是高斯分布，但边缘分布在 $t$ 较小时并非严格高斯分布，仍保留原始数据 $x_{0}$ 的多模态特征。

真实分布的非高斯性：当 $t$ 接近 0 时， $x_{t}$ 是 $x_{0}$ 叠加少量噪声的结果，分布应接近原始数据的复杂多模态分布
模型假设的简化目的：
- 数学可处理性：高斯分布的线性可加性、闭合解使前向/反向过程推导可行， $x_{t}$ 可直接由 $x_{0}$ 表示： $x_{t} = \overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ$
- 训练稳定性：高斯假设使损失函数（如 KL 散度）有闭式解，避免复杂分布的优化困难

渐近高斯性：随着 $t$ 增大（ $β_{t}$ 递增），多次独立高斯噪声的叠加使 $x_{T}$ 收敛到标准高斯分布 $N (0, I)$
反向过程的可行性基础：若前向过程的高斯转移核足够小（ $β_{t} ≪ 1$ ），则逆过程在 $t$ 较大时接近高斯分布，神经网络可通过参数化均值 $μ_{θ}$ 和方差 $Σ_{θ}$ 拟合复杂映射

扩散模型在图像生成中的成功证明高斯假设虽为近似，但通过以下设计仍能有效建模复杂数据分布：

时间步相关的参数化：神经网络根据 $t$ 动态调整预测的噪声 $ϵ_{θ} (x_{t}, t)$ ，自适应不同 $t$ 下 $x_{t}$ 的分布特性
损失函数设计：通过最小化预测噪声与真实噪声的均方误差，间接拟合非高斯分布的转换过程

高斯假设是实用性与理论妥协的结果：

生成效果验证表明，高斯分布足以作为复杂分布的有效代理，实现高质量生成。