残差连接通过 y = x + F(x) 给梯度提供”+1 保底”的恒等通道,避免深层链式乘积导致的梯度消失。它同时印证了”模型存在大量冗余参数”——这种冗余反而是深层训练稳定与涌现能力出现的关键。

残差为什么能跨层传播梯度

残差块:

求导:

反向传播:

无论 多小,始终有 +1 保底。极端情况 时梯度无损回传。普通深网络的梯度只能逐层串行传递,多层后乘积衰减;残差网络多了一条恒等高速通道。

残差印证了模型的大量冗余

残差结构隐含的设计假设:若某层无必要学习复杂变换,可令 ,退化为恒等映射

由此推出:

  • 训练完成的深网络中大量层/参数近似无效
  • 真正贡献预测的只是少量关键参数
  • 模型有极强的剪枝/压缩潜力

冗余为何反而有助于训练

角度解释
优化地形大冗余模型易落入平坦极值,小模型易陷入尖锐极值
梯度传播多支路提供更多有效路径,缓解消失/爆炸
容错性部分神经元失效时其他参数可代偿
泛化大空间反而不易死记噪声,更容易学到底层规律

既然冗余,为何还要训大模型

  1. 没有成熟理论指导”刚好够用”的紧凑模型设计
  2. 大模型收敛更稳、泛化更强、SOTA 更易复现
  3. 适合 GPU 集群并行训练
  4. 是迁移学习/预训练-微调范式的基础
  5. 冗余只是训练的”脚手架”,推理时可压缩去掉

为什么 Transformer 比 CNN 更冗余、效果却更强

维度CNNTransformer
归纳偏置强(局部性、权值共享、平移不变)极弱,几乎无人工先验
长程依赖靠堆叠扩感受野,效率低注意力直接建模任意距离
优化路径较少残差 + Norm + 多头提供大量路径
泛化受先验约束大空间易学通用规律

为什么 Transformer 冗余却能大幅剪枝

  • 训练冗余 ≠ 推理必需:大参数为优化稳定,任务真实复杂度远低于模型容量
  • 学到的函数高度稀疏:大量注意力头、FFN 神经元接近 0
  • 注意力头高度冗余:少数头负责关键语义,多数可剪
  • FFN 是过参数化分解:中间扩 4× 只为优化,有效秩低

一句话:训练靠大空间兜底,推理只留核心规律。

涌现能力为何依赖足够大的冗余

涌现 = 规模突破阈值后突然具备小模型没有的复杂能力(推理、零样本、组合泛化)。

  • 容量足够:才能承载高维抽象规律,小模型只能学表面统计
  • 能力解耦:不同参数组负责语法/常识/推理,互不干扰
  • 平坦最小值:泛化能力强,避免死记
  • 记忆与推理分离:冗余空间同时容纳知识与执行,能力发生质变

模型压缩四方法本质区别

方法本质操作对象阶段
剪枝 Pruning删除冗余参数权重/神经元/注意力头训练后
量化 Quantization降低数值精度权重/激活的位宽训练后或训练中
蒸馏 Distillation大模型教小模型概率/特征分布大模型训练后
稀疏训练约束稀疏解权重掩码训练全程

通俗对应:

  • 剪枝 = 训大后裁员
  • 量化 = 把数字写短
  • 蒸馏 = 让小模型模仿大模型
  • 稀疏训练 = 一开始就只激活部分参数

模型规模的未来趋势

  • 短期(1–5 年):先训超大冗余模型 → 剪枝/量化/蒸馏部署。工业界成熟链路
  • 中期:动态稀疏大模型——训练时动态激活部分参数,推理时自动紧凑
  • 长期(> 5 年):算力成本不可持续,结构设计 / 稀疏训练 / NAS 成熟后,直接训练紧凑高效模型