共 1 篇文章
位置编码解决 Transformer 自注意力机制的「顺序失忆症」,为模型注入序列位置信息。从绝对编码到 RoPE,相对位置建模成为主流。
自注意力机制具有置换不变性:$Attention(Q,K,V) = …