LLM为什么使用Decoder only架构?
- 淘汰掉BERT这种encoder-only,因为它用masked language modeling预训练,不擅长做生成任务
- Encoder的双向注意力存在低秩问题,可能会削弱模型的表达能力,就生成任务而言,引入双向注意力并无实质好处。
- 相比之下decoder-only的模型用next token prediction%预训练,兼顾理解和生成,在各种下游任务上的zero-shot和few-shot泛化性能都很好
- 尽管Encoder-Decoder和Prefix-LM架构在理论上具备兼顾理解与生成的能力,但在实际应用中,Decoder-only架构凭借其在泛化性能、训练难度、位置编码特性、计算效率和生态系统等方面的优势,成为当前大规模语言模型的主流选择
- 泛化性能优势,
- Decoder 在零样本(zero-shot)和少样本(few-shot)学习任务中表现更为优异
- Encoder-decoder需要在一定量的标注数据上做multitask finetuning才能够激发最佳性能
- 训练任务难度与模型能力,Decoder-only架构的预训练任务(即下一词预测)相对更具挑战性,使得模型在学习通用表征时具有更高的上限
- 隐式位置编码特性,ecoder-only架构中的因果注意力机制(causal attention)具有隐式的位置编码功能,能够打破Transformer模型固有的位置不变性
- 计算效率与工程实现,Decoder-only模型在处理多轮对话等任务时,可以复用键值缓存(KV-Cache),提高计算效率。
- 路径依赖与生态系统,OpenAI等领先研究机构率先采用Decoder-only架构并取得成功,形成了技术路径依赖,积累了丰富的经验和工具。
Reference
- LLM为什么Decoder only架构 https://www.xiaohongshu.com/discovery/item/67e7bfda000000001c00d7b5
- ChatGPT https://chatgpt.com/share/67e7d8bb-5428-800c-a0bc-65c930dfc922