Transformer通过自注意力机制实现序列建模,是现代大语言模型的基础架构。
核心架构
| 组件 | 说明 |
|---|---|
| Multi-Head Attention | 多头自注意力,捕获不同位置关系 |
| Feed-Forward Network | 两层全连接,非线性变换 |
| Layer Normalization | 层归一化,稳定训练 |
| Positional Encoding | 位置编码,注入序列顺序信息 |
归一化对比
| 类型 | 归一化维度 | 适用场景 |
|---|---|---|
| BatchNorm | 每个特征 | CV任务 |
| LayerNorm | 每个样本 | NLP任务 |
学习资源
[[原始 Transformer 模型超详细拆解:每个模块、参数与计算逻辑]]
张芷铭的个人博客
Comments