张芷铭的个人博客

RoPE 理论上具备无限外推潜力,但实际需结合插值优化才能扩展至训练长度的数十倍。

理论基础

旋转机制连续性

位置 $m$ 的旋转角度为 $m\theta_i$,其中 $\theta_i = 10000^{-2i/d}$:

  • 旋转角度随位置线性增长,形成平滑连续函数
  • 未训练位置的角度可通过函数自然延伸

正交矩阵稳定性

旋转矩阵 $\mathbf{R}_m$ 是正交矩阵,保持向量模长不变,避免长序列中的梯度爆炸/消失。

实际限制

问题说明
高频维度衰减远距离下高频维度快速震荡,失去区分度
数值精度$m\theta_i \gg 2\pi$ 时三角函数剧烈震荡
注意力分布偏移短序列训练的模式不适用于极长位置

优化方案

插值方法

方法说明
线性插值位置索引压缩 $s$ 倍,$m’ = m/s$
NTK-aware高频维度不压缩,低频维度线性压缩
Dynamic NTK推理时按序列长度动态计算缩放因子

工业实践

  • ChatGLM:仅对前 50% 维度应用 RoPE
  • LLaMA-3:NTK-aware 插值 + 动态缩放,32k 训练支持 128k 上下文

外推能力总结

场景无限外推说明
理论机制旋转连续性 + 正交性
未优化模型长度 > 2×训练范围时性能崩溃
优化后模型⚠️ 有限可扩展至训练长度的 10–100 倍

Comments