RoPE 通过旋转矩阵将位置信息编码到向量方向,使注意力分数天然包含相对位置信息。

核心公式

旋转后的点积仅依赖相对位置

旋转矩阵构造

频率参数

二维旋转

应用旋转

相对位置证明

由旋转矩阵正交性

与 Sinusoidal 对比

特性RoPESinusoidal
注入方式旋转(乘法)向量加法
相对位置显式编码隐式学习
长序列泛化支持外推超出训练长度失效
语义保真度高(保持模长)低(改变模长)

核心优势

  • 显式相对位置编码
  • 无需修改注意力结构
  • 兼容现有 Transformer
  • LLaMA、ChatGLM 等主流模型采用