张芷铭的个人博客

主流生成式大模型(GPT、LLaMA、Claude、Qwen)全部采用纯Decoder架构,Encoder对生成任务纯冗余。

架构对比

架构特点适用场景
Encoder-Decoder编码器理解+解码器生成机器翻译、摘要
纯Decoder自回归逐词生成通用生成任务

砍掉Encoder的4个原因

原因说明
生成只需Decoder因果掩码机制,逐词续写,Encoder双向理解用不上
训练成本更低少一半结构,工程难度减半,支持KV缓存
参数利用率更高所有参数优化预测下一个词,生成质量更优
通用能力更强零样本/小样本泛化,一个模型通吃所有任务

Encoder的新定位

Encoder未消失,转战理解类任务:

  • 文本分类、情感分析
  • 搜索召回、向量检索
  • BERT系列继续发挥作用

总结

纯Decoder完美匹配生成需求:流畅生成、低成本训练、全场景通用。Encoder在通用大模型中是冗余配件。

Comments