前向传播从输入计算输出，反向传播用链式法则求梯度，二者构成神经网络训练的核心循环。训练计算量约为推理的 3 倍。

核心概念

神经网络训练的本质是：通过不断调整参数（权重 $W$ 、偏置 $b$ ），使预测输出逼近真实值。

概念	说明
模型	参数（权重 $W$ 、偏置 $b$ ）+ 计算流程（层与层之间的变换）
前向传播	从输入出发，沿计算流程正向计算到输出，得到预测值
损失函数	衡量预测值与真实值的差距，如 MSE、CrossEntropy
反向传播	从损失出发，逆向求导，计算每个参数的梯度
梯度下降	用梯度调整参数，最小化损失

训练循环：

初始化参数 → 前向传播 → 计算损失 → 反向传播 → 参数更新 → 循环

前向传播：从输入到输出

前向传播是纯粹的计算过程：给定输入 $x$ 和当前参数，按网络结构逐层计算，最终得到输出 $y_{p re d}$ 。

单神经元示例（数值计算）

最简单的神经网络单元——单个神经元：

$y_{p re d} = w \cdot x + b$

其中：

$x$ ：输入值
$w$ ：权重，决定输入对输出的影响程度
$b$ ：偏置，调整输出的基准值
$y_{p re d}$ ：预测输出

具体计算（假设 $x = 2$ ， $w = 3$ ， $b = 1$ ）：

$y_{p re d} = 3 \times 2 + 1 = 7$

计算损失（假设真实值 $y_{t r u e} = 8$ ，使用 MSE 损失）：

$L = \frac{1}{2} (y_{p re d} - y_{t r u e})^{2} = \frac{1}{2} (7 - 8)^{2} = 0.5$

**为什么用 $\frac{1}{2}$ **：为了求导方便， $\frac{d L}{d y _{p re d}} = y_{p re d} - y_{t r u e}$ ，系数正好是 1。

多层神经网络示例

输入 $x = [1, 2]$ ，经过隐藏层和输出层：

隐藏层（权重 $W_{1} = [0.1, 0.2]$ ，偏置 $b_{1} = 0.3$ ）：

$z_{1} = 0.1 \times 1 + 0.2 \times 2 + 0.3 = 0.8$

激活函数（Sigmoid）：

$h = σ (z_{1}) = \frac{1}{1 + e ^{- 0.8}} \approx 0.69$

输出层（权重 $w_{2} = 0.4$ ，偏置 $b_{2} = 0.5$ ）：

$y_{p re d} = 0.4 \times 0.69 + 0.5 \approx 0.776$

矩阵形式的前向传播（实际实现）

实际神经网络的每一层是矩阵运算，可并行处理多个样本。

单层线性层前向传播：

$Y = X W + b$

其中：

$X \in R^{N \times D}$ ： $N$ 个样本，每个样本 $D$ 维特征
$W \in R^{D \times M}$ ：权重矩阵，将 $D$ 维映射到 $M$ 维
$b \in R^{M}$ ：偏置向量
$Y \in R^{N \times M}$ ：输出矩阵

理解矩阵乘法： $Y$ 的每个元素 $Y_{ij}$ 是 $X$ 的第 $i$ 行与 $W$ 的第 $j$ 列的内积，表示第 $i$ 个样本在第 $j$ 个输出维度上的值。

前向传播的特点

纯计算过程，依赖输入和当前参数
中间值被框架记录，构建计算图（用于后续反向传播）
计算量主要由矩阵乘法决定，受内存带宽限制

反向传播：从损失到梯度

反向传播的核心任务：计算损失函数 $L$ 对每个参数的梯度 $\frac{\partial L}{\partial W}$ 、 $\frac{\partial L}{\partial b}$ ，用于参数更新。

链式法则（数学基础）

反向传播依赖链式法则处理复合函数的求导。

单变量链式法则：

若 $y = f (g (x))$ ，即 $y$ 通过中间变量 $g$ 依赖于 $x$ ，则：

$\frac{d y}{d x} = \frac{d y}{d g} \times \frac{d g}{d x}$

直观理解：把复杂函数拆成简单环节，逐环节求导，再相乘得到整体导数。

多变量链式法则：

若 $z$ 同时依赖于 $u$ 和 $v$ ，而 $u$ 、 $v$ 都依赖于 $x$ ：

$\frac{\partial z}{\partial x} = \frac{\partial z}{\partial u} \times \frac{\partial u}{\partial x} + \frac{\partial z}{\partial v} \times \frac{\partial v}{\partial x}$

单神经元反向传播（数值推导）

回到前面的单神经元示例，求 $\frac{\partial L}{\partial w}$ 和 $\frac{\partial L}{\partial b}$ 。

计算链路：

$x w, b y_{p re d} = w x + b L L = \frac{1}{2} (y_{p re d} - y_{t r u e})^{2}$

逐环节求导：

损失对预测的导数： $\frac{\partial L}{\partial y _{p re d}} = y_{p re d} - y_{t r u e} = 7 - 8 = - 1$
预测对权重的导数： $\frac{\partial y _{p re d}}{\partial w} = x = 2$
预测对偏置的导数： $\frac{\partial y _{p re d}}{\partial b} = 1$

链式法则组合：

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y _{p re d}} \times \frac{\partial y _{p re d}}{\partial w} = - 1 \times 2 = - 2$

$\frac{\partial L}{\partial b} = \frac{\partial L}{\partial y _{p re d}} \times \frac{\partial y _{p re d}}{\partial b} = - 1 \times 1 = - 1$

梯度含义：

$\frac{\partial L}{\partial w} = - 2$ ：权重增加 1，损失减少 2（应增加权重）
$\frac{\partial L}{\partial b} = - 1$ ：偏置增加 1，损失减少 1（应增加偏置）

参数更新（梯度下降）

用梯度调整参数（学习率 $l r = 0.1$ ）：

$w_{n e w} = w_{o l d} - l r \times \frac{\partial L}{\partial w} = 3 - 0.1 \times (- 2) = 3.2$

$b_{n e w} = b_{o l d} - l r \times \frac{\partial L}{\partial b} = 1 - 0.1 \times (- 1) = 1.1$

更新后重新前向传播：

$y_{p re d}^{n e w} = 3.2 \times 2 + 1.1 = 7.5$

损失变小（ $7.5$ 比 $7$ 更接近 $8$ ），说明更新方向正确。

矩阵形式的反向传播

对于线性层 $Y = X W + b$ ，反向传播需要计算三类梯度：

梯度	用途	公式
$\frac{\partial L}{\partial W}$	更新本层参数	$X^{T} \frac{\partial L}{\partial Y}$
$\frac{\partial L}{\partial b}$	更新本层偏置	$\sum \frac{\partial L}{\partial Y}$ （沿样本轴求和）
$\frac{\partial L}{\partial X}$	传递误差给前一层	$\frac{\partial L}{\partial Y} W^{T}$

**推导 $\frac{\partial L}{\partial W}$ **：

$Y = X W$ ，即 $Y_{ij} = \sum_{k} X_{ik} W_{kj}$

对 $W_{kj}$ 求偏导：

$\frac{\partial Y _{ij}}{\partial W _{kj}} = X_{ik}$

由链式法则：

$\frac{\partial L}{\partial W _{kj}} = \sum_{i} \frac{\partial L}{\partial Y _{ij}} \times \frac{\partial Y _{ij}}{\partial W _{kj}} = \sum_{i} \frac{\partial L}{\partial Y _{ij}} X_{ik}$

这正是矩阵乘法 $X^{T} \frac{\partial L}{\partial Y}$ 的第 $(k, j)$ 个元素。

**推导 $\frac{\partial L}{\partial X}$ **：

类似地， $\frac{\partial L}{\partial X} = \frac{\partial L}{\partial Y} W^{T}$

**为什么必须算 $\frac{\partial L}{\partial X}$ **：它是误差传递给前一层的唯一桥梁。多层网络中，每层都需要接收来自后层的误差信号（ $\frac{\partial L}{\partial X}$ ），才能计算本层参数梯度。

计算量分析

矩阵乘法的 FLOPs（浮点运算数）： $Y = A @ B$ ，其中 $A \in R^{a \times b}$ ， $B \in R^{b \times c}$

$FLOPs = 2 \times a \times b \times c$

每个输出元素需要 $b$ 次乘法和 $b - 1$ 次加法（约 $2 b$ 次运算），共 $a \times c$ 个输出元素。

设线性层维度： $X \in R^{N \times D}$ ， $W \in R^{D \times M}$ （ $N$ 样本数， $D$ 输入维度， $M$ 输出维度）

阶段	计算	FLOPs
前向传播	$Y = X W$	$2 N D M$
反向传播（算 $\frac{\partial L}{\partial W}$ ）	$X^{T} \frac{\partial L}{\partial Y}$	$2 N D M$
反向传播（算 $\frac{\partial L}{\partial X}$ ）	$\frac{\partial L}{\partial Y} W^{T}$	$2 N D M$
训练总计	前向 + 反向	$6 N D M$
推理	仅前向	$2 N D M$

结论：训练计算量 ≈ 3 倍推理。

为什么反向比前向慢：反向传播需要保存前向传播的中间结果（用于求导），显存读写开销大。

梯度问题与解决方案

梯度消失

深层网络中，梯度逐层相乘。如果每层梯度小于 1，经过多层后梯度趋近于 0，前层参数几乎无法更新。

典型场景：Sigmoid 激活函数， $σ^{'} (z) = σ (z) (1 - σ (z)) \leq 0.25$

梯度爆炸

如果每层梯度大于 1，经过多层后梯度指数级增大，参数更新剧烈，训练不稳定。

解决方案

方案	机制
LayerNorm	标准化每层的输出分布，稳定梯度范围
残差连接	梯度可跨层直接传递，不经过激活函数衰减
梯度裁剪	强制限制梯度上限，防止爆炸
ReLU 激活	正区间导数恒为 1，避免梯度衰减

PyTorch 实现

import torch
import torch.nn as nn
import torch.optim as optim
 
# 定义模型
model = nn.Linear(10, 5)
optimizer = optim.SGD(model.parameters(), lr=0.01)
loss_fn = nn.MSELoss()
 
# 训练循环
for x, y_true in data_loader:
    # 1. 前向传播
    y_pred = model(x)
    loss = loss_fn(y_pred, y_true)
    
    # 2. 反向传播
    optimizer.zero_grad()    # 清零旧梯度
    loss.backward()          # 自动计算所有参数梯度
    
    # 3. 参数更新
    optimizer.step()         # 梯度下降更新参数

框架自动实现：

PyTorch 在前向传播时自动构建计算图
loss.backward() 自动应用链式法则求导
梯度存储在 param.grad 中

实践要点

场景	要点
分布式训练	反向传播后 AllReduce 同步梯度
性能优化	前向优化内存带宽，反向利用通信-计算重叠
混合精度	前向用 FP16，梯度累加用 FP32，减少显存
梯度累积	小 batch 多次前向+反向，累积梯度后一次更新

总结

阶段	输入	输出	核心操作
前向传播	数据 $x$ 、参数 $W, b$	预测 $y_{p re d}$ 、损失 $L$	矩阵乘法、激活函数
反向传播	损失 $L$	梯度 $\frac{\partial L}{\partial W}$ 、 $\frac{\partial L}{\partial b}$	链式法则求导
参数更新	梯度、学习率	新参数 $W_{n e w}, b_{n e w}$	梯度下降

核心公式：

$W_{n e w} = W_{o l d} - l r \times \frac{\partial L}{\partial W}$

训练的本质：通过前向-反向循环，不断用梯度修正参数，使损失函数最小化。

知识花园

探索

前向传播与反向传播详解