张芷铭的个人博客

#位置编码

共 1 篇文章

[!abstract] INTRODUCTION 在自然语言处理(NLP)乃至更广泛的序列数据处理领域,Transformer 架构的兴起无疑是一场革命。它凭借自注意力(Self-Attention)机制并行处理序列中的所有元素,极大地提 …