张芷铭的个人博客

大语言模型(LLM)是包含数千亿参数的 Transformer 语言模型,通过大规模文本训练展现理解自然语言和解决复杂任务的强大能力。

NLP 技术迭代

阶段代表技术特点
统计语言模型词袋模型、n 元模型基于统计,维数灾难
神经语言模型RNN、word2vec神经网络建模
预训练语言模型BERT、biLSTMPre-trained + Fine-tune
大语言模型GPT 系列涌现能力、AGI

LLM 背景知识

概念说明
扩展法则扩展模型/数据规模提升性能(KM、Chinchilla 扩展法则)
涌现能力上下文学习(ICL)、指令遵循、逐步推理
关键技术扩展训练、能力引导、对齐微调、工具操作

GPT 系列演进

模型关键进展
GPT-3引入上下文学习
GPT-3.5代码数据训练增强推理
GPT-4扩展到多模态信号
ChatGPT对话优化 + 插件机制

LLM 完整流程

阶段任务
预训练大规模语料库捕捉上下文词表示
适配微调指令微调 + RLHF 确保人类价值观对齐
使用设计任务指令或 ICL 策略激发潜在能力
评估基准测试验证复杂任务性能

预训练语料库

类型内容
通用文本网页、书籍、对话文本
专用文本多语言文本、科学文本、代码

数据预处理流程

  1. 质量过滤(分类器/启发式)
  2. 去重
  3. 隐私去除
  4. 分词

未来方向

  • LLM 基本原理探索(涌现能力机制)
  • 训练策略优化(降低计算资源需求)
  • 对齐与安全(消除潜在风险)

Comments