Xavier 初始化

Xavier 初始化（Glorot 2010）通过约束权重方差，让每层输入与输出方差近似相等，避免深层网络中信号/梯度的指数爆炸或消失。适用于 Sigmoid、Tanh 等对称激活；ReLU 应改用 Kaiming。

为什么需要

数学推导（核心）

假设输入 $x$ 与权重 $W$ 均为 0 均值、相互独立。全连接层 $y = W^{⊤} x + b$ ，则

Var (y) = n_{in} \cdot Var (W) \cdot Var (x)

为使 $Var (y) \approx Var (x)$ ，前向方向需 $Var (W) = 1/ n_{in}$ ；类似地，反向方向需 $Var (W) = 1/ n_{o u t}$ 。Xavier 取调和平均：

Var (W) = \frac{2}{n _{in} + n _{o u t}}

两种实现

分布	采样公式
Xavier Uniform	$W \sim U (- a, a), a = \frac{6}{n _{in} + n _{o u t}}$
Xavier Normal	$W \sim N (0, σ^{2}), σ = \frac{2}{n _{in} + n _{o u t}}$

实践中常引入 gain 调整尺度。

适用与不适用

场景	是否适用
Sigmoid、Tanh 等对称激活	✓
全连接层、传统 CNN	✓
ReLU / Leaky ReLU / PReLU	✗ 改用 Kaiming 初始化
自注意力（Transformer）	通常用专门的 small-init 或 Xavier×0.02

ReLU 会置零负输入，破坏对称性假设，需 Kaiming 初始化。

PyTorch 用法

import torch
import torch.nn as nn
 
w = torch.empty(3, 5)
 
nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('tanh'))
nn.init.xavier_normal_(w, gain=1.0)

calculate_gain 返回针对常见激活函数（Tanh、Sigmoid、Linear）的推荐增益。

与 Kaiming 对比

维度	Xavier	Kaiming
适用激活	对称（Sigmoid、Tanh）	ReLU 及其变体
方差公式	$\frac{2}{n _{in} + n _{o u t}}$	$\frac{2}{n _{in}}$ （fan_in 模式）
考虑负斜率	否	是（Leaky ReLU 的 α）
现代深度学习	渐少使用	默认推荐

知识花园

探索