RoPE 通过旋转矩阵将位置信息编码到向量方向,使注意力分数天然包含相对位置信息。
核心公式
旋转后的点积仅依赖相对位置 。
旋转矩阵构造
频率参数
二维旋转
应用旋转
相对位置证明
由旋转矩阵正交性 。
与 Sinusoidal 对比
| 特性 | RoPE | Sinusoidal |
|---|---|---|
| 注入方式 | 旋转(乘法) | 向量加法 |
| 相对位置 | 显式编码 | 隐式学习 |
| 长序列泛化 | 支持外推 | 超出训练长度失效 |
| 语义保真度 | 高(保持模长) | 低(改变模长) |
核心优势
- 显式相对位置编码
- 无需修改注意力结构
- 兼容现有 Transformer
- LLaMA、ChatGLM 等主流模型采用