绝对位置编码为序列中每个位置分配唯一向量,弥补自注意力机制的位置无关性。

核心概念

绝对位置编码(APE)通过加法注入位置信息:

其中 为第 个位置的编码向量。

技术演进

方法特点典型模型
正弦/余弦编码固定公式,可外推Transformer 原版
可学习位置编码参数优化,效果更佳BERT、GPT
相对位置编码建模相对距离T5、Transformer-XL

正弦/余弦编码公式

  • :位置索引
  • :维度索引
  • :编码维度

优缺点对比

优点缺点
实现简单长度外推能力有限
无额外参数可学习版本更优
位置唯一性无法建模相对位置关系