残差连接通过
y = x + F(x)给梯度提供”+1 保底”的恒等通道,避免深层链式乘积导致的梯度消失。它同时印证了”模型存在大量冗余参数”——这种冗余反而是深层训练稳定与涌现能力出现的关键。
残差为什么能跨层传播梯度
残差块:
对 求导:
反向传播:
无论 多小,始终有 +1 保底。极端情况 时梯度无损回传。普通深网络的梯度只能逐层串行传递,多层后乘积衰减;残差网络多了一条恒等高速通道。
残差印证了模型的大量冗余
残差结构隐含的设计假设:若某层无必要学习复杂变换,可令 ,退化为恒等映射 。
由此推出:
- 训练完成的深网络中大量层/参数近似无效
- 真正贡献预测的只是少量关键参数
- 模型有极强的剪枝/压缩潜力
冗余为何反而有助于训练
| 角度 | 解释 |
|---|---|
| 优化地形 | 大冗余模型易落入平坦极值,小模型易陷入尖锐极值 |
| 梯度传播 | 多支路提供更多有效路径,缓解消失/爆炸 |
| 容错性 | 部分神经元失效时其他参数可代偿 |
| 泛化 | 大空间反而不易死记噪声,更容易学到底层规律 |
既然冗余,为何还要训大模型
- 没有成熟理论指导”刚好够用”的紧凑模型设计
- 大模型收敛更稳、泛化更强、SOTA 更易复现
- 适合 GPU 集群并行训练
- 是迁移学习/预训练-微调范式的基础
- 冗余只是训练的”脚手架”,推理时可压缩去掉
为什么 Transformer 比 CNN 更冗余、效果却更强
| 维度 | CNN | Transformer |
|---|---|---|
| 归纳偏置 | 强(局部性、权值共享、平移不变) | 极弱,几乎无人工先验 |
| 长程依赖 | 靠堆叠扩感受野,效率低 | 注意力直接建模任意距离 |
| 优化路径 | 较少 | 残差 + Norm + 多头提供大量路径 |
| 泛化 | 受先验约束 | 大空间易学通用规律 |
为什么 Transformer 冗余却能大幅剪枝
- 训练冗余 ≠ 推理必需:大参数为优化稳定,任务真实复杂度远低于模型容量
- 学到的函数高度稀疏:大量注意力头、FFN 神经元接近 0
- 注意力头高度冗余:少数头负责关键语义,多数可剪
- FFN 是过参数化分解:中间扩 4× 只为优化,有效秩低
一句话:训练靠大空间兜底,推理只留核心规律。
涌现能力为何依赖足够大的冗余
涌现 = 规模突破阈值后突然具备小模型没有的复杂能力(推理、零样本、组合泛化)。
- 容量足够:才能承载高维抽象规律,小模型只能学表面统计
- 能力解耦:不同参数组负责语法/常识/推理,互不干扰
- 平坦最小值:泛化能力强,避免死记
- 记忆与推理分离:冗余空间同时容纳知识与执行,能力发生质变
模型压缩四方法本质区别
| 方法 | 本质 | 操作对象 | 阶段 |
|---|---|---|---|
| 剪枝 Pruning | 删除冗余参数 | 权重/神经元/注意力头 | 训练后 |
| 量化 Quantization | 降低数值精度 | 权重/激活的位宽 | 训练后或训练中 |
| 蒸馏 Distillation | 大模型教小模型 | 概率/特征分布 | 大模型训练后 |
| 稀疏训练 | 约束稀疏解 | 权重掩码 | 训练全程 |
通俗对应:
- 剪枝 = 训大后裁员
- 量化 = 把数字写短
- 蒸馏 = 让小模型模仿大模型
- 稀疏训练 = 一开始就只激活部分参数
模型规模的未来趋势
- 短期(1–5 年):先训超大冗余模型 → 剪枝/量化/蒸馏部署。工业界成熟链路
- 中期:动态稀疏大模型——训练时动态激活部分参数,推理时自动紧凑
- 长期(> 5 年):算力成本不可持续,结构设计 / 稀疏训练 / NAS 成熟后,直接训练紧凑高效模型