深度学习：残差连接 · 模型冗余 · Transformer · 涌现与压缩

残差连接通过 y = x + F(x) 给梯度提供”+1 保底”的恒等通道，避免深层链式乘积导致的梯度消失。它同时印证了”模型存在大量冗余参数”——这种冗余反而是深层训练稳定与涌现能力出现的关键。

残差为什么能跨层传播梯度

残差块：

$y = x + F (x)$

对 $x$ 求导：

\frac{\partial y}{\partial x} = 1 + \frac{\partial F ( x )}{\partial x}

反向传播：

\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot (1 + \frac{\partial F}{\partial x})

无论 $\frac{\partial F}{\partial x}$ 多小，始终有 +1 保底。极端情况 $F (x) \approx 0$ 时梯度无损回传。普通深网络的梯度只能逐层串行传递，多层后乘积衰减；残差网络多了一条恒等高速通道。

残差印证了模型的大量冗余

残差结构隐含的设计假设：若某层无必要学习复杂变换，可令 $F (x) \approx 0$ ，退化为恒等映射 $y \approx x$ 。

由此推出：

训练完成的深网络中大量层/参数近似无效
真正贡献预测的只是少量关键参数
模型有极强的剪枝/压缩潜力

冗余为何反而有助于训练

角度	解释
优化地形	大冗余模型易落入平坦极值，小模型易陷入尖锐极值
梯度传播	多支路提供更多有效路径，缓解消失/爆炸
容错性	部分神经元失效时其他参数可代偿
泛化	大空间反而不易死记噪声，更容易学到底层规律

既然冗余，为何还要训大模型

没有成熟理论指导”刚好够用”的紧凑模型设计
大模型收敛更稳、泛化更强、SOTA 更易复现
适合 GPU 集群并行训练
是迁移学习/预训练-微调范式的基础
冗余只是训练的”脚手架”，推理时可压缩去掉

为什么 Transformer 比 CNN 更冗余、效果却更强

维度	CNN	Transformer
归纳偏置	强（局部性、权值共享、平移不变）	极弱，几乎无人工先验
长程依赖	靠堆叠扩感受野，效率低	注意力直接建模任意距离
优化路径	较少	残差 + Norm + 多头提供大量路径
泛化	受先验约束	大空间易学通用规律

为什么 Transformer 冗余却能大幅剪枝

训练冗余 ≠ 推理必需：大参数为优化稳定，任务真实复杂度远低于模型容量
学到的函数高度稀疏：大量注意力头、FFN 神经元接近 0
注意力头高度冗余：少数头负责关键语义，多数可剪
FFN 是过参数化分解：中间扩 4× 只为优化，有效秩低

一句话：训练靠大空间兜底，推理只留核心规律。

涌现能力为何依赖足够大的冗余

涌现 = 规模突破阈值后突然具备小模型没有的复杂能力（推理、零样本、组合泛化）。

容量足够：才能承载高维抽象规律，小模型只能学表面统计
能力解耦：不同参数组负责语法/常识/推理，互不干扰
平坦最小值：泛化能力强，避免死记
记忆与推理分离：冗余空间同时容纳知识与执行，能力发生质变

模型压缩四方法本质区别

方法	本质	操作对象	阶段
剪枝 Pruning	删除冗余参数	权重/神经元/注意力头	训练后
量化 Quantization	降低数值精度	权重/激活的位宽	训练后或训练中
蒸馏 Distillation	大模型教小模型	概率/特征分布	大模型训练后
稀疏训练	约束稀疏解	权重掩码	训练全程

通俗对应：

剪枝 = 训大后裁员
量化 = 把数字写短
蒸馏 = 让小模型模仿大模型
稀疏训练 = 一开始就只激活部分参数

模型规模的未来趋势

短期（1–5 年）：先训超大冗余模型 → 剪枝/量化/蒸馏部署。工业界成熟链路
中期：动态稀疏大模型——训练时动态激活部分参数，推理时自动紧凑
长期（> 5 年）：算力成本不可持续，结构设计 / 稀疏训练 / NAS 成熟后，直接训练紧凑高效模型