主流生成式大模型(GPT、LLaMA、Claude、Qwen)全部采用纯Decoder架构,Encoder对生成任务纯冗余。
架构对比
| 架构 | 特点 | 适用场景 |
|---|---|---|
| Encoder-Decoder | 编码器理解+解码器生成 | 机器翻译、摘要 |
| 纯Decoder | 自回归逐词生成 | 通用生成任务 |
砍掉Encoder的4个原因
| 原因 | 说明 |
|---|---|
| 生成只需Decoder | 因果掩码机制,逐词续写,Encoder双向理解用不上 |
| 训练成本更低 | 少一半结构,工程难度减半,支持KV缓存 |
| 参数利用率更高 | 所有参数优化预测下一个词,生成质量更优 |
| 通用能力更强 | 零样本/小样本泛化,一个模型通吃所有任务 |
Encoder的新定位
Encoder未消失,转战理解类任务:
- 文本分类、情感分析
- 搜索召回、向量检索
- BERT系列继续发挥作用
总结
纯Decoder完美匹配生成需求:流畅生成、低成本训练、全场景通用。Encoder在通用大模型中是冗余配件。
张芷铭的个人博客
Comments