- 张芷铭的个人博客

张芷铭的个人博客

📅 2026-01-23

#ai #deep-learning #machine-learning

RoPE 理论上具备无限外推潜力，但实际需结合插值优化才能扩展至训练长度的数十倍。

理论基础

旋转机制连续性

位置 $m$ 的旋转角度为 $m\theta_i$，其中 $\theta_i = 10000^{-2i/d}$：

旋转角度随位置线性增长，形成平滑连续函数
未训练位置的角度可通过函数自然延伸

正交矩阵稳定性

旋转矩阵 $\mathbf{R}_m$ 是正交矩阵，保持向量模长不变，避免长序列中的梯度爆炸/消失。

实际限制

问题	说明
高频维度衰减	远距离下高频维度快速震荡，失去区分度
数值精度	$m\theta_i \gg 2\pi$ 时三角函数剧烈震荡
注意力分布偏移	短序列训练的模式不适用于极长位置

优化方案

插值方法

方法	说明
线性插值	位置索引压缩 $s$ 倍，$m’ = m/s$
NTK-aware	高频维度不压缩，低频维度线性压缩
Dynamic NTK	推理时按序列长度动态计算缩放因子

工业实践

ChatGLM：仅对前 50% 维度应用 RoPE
LLaMA-3：NTK-aware 插值 + 动态缩放，32k 训练支持 128k 上下文

外推能力总结

场景	无限外推	说明
理论机制	✅	旋转连续性 + 正交性
未优化模型	❌	长度 > 2×训练范围时性能崩溃
优化后模型	⚠️ 有限	可扩展至训练长度的 10–100 倍

Comments