共 2 篇文章
位置编码为 Transformer 自注意力机制注入位置信息,解决其置换不变性问题。
自注意力机制的置换不变性使其无法区分序列顺序。位置编码通过添加位置向量解决: …
位置编码解决 Transformer 自注意力机制的「顺序失忆症」,为模型注入序列位置信息。从绝对编码到 RoPE,相对位置建模成为主流。
自注意力机制具有置换不变性:$Attention(Q,K,V) = …