大语言模型(LLM)是包含数千亿参数的 Transformer 语言模型,通过大规模文本训练展现理解自然语言和解决复杂任务的强大能力。
NLP 技术迭代
| 阶段 | 代表技术 | 特点 |
|---|
| 统计语言模型 | 词袋模型、n 元模型 | 基于统计,维数灾难 |
| 神经语言模型 | RNN、word2vec | 神经网络建模 |
| 预训练语言模型 | BERT、biLSTM | Pre-trained + Fine-tune |
| 大语言模型 | GPT 系列 | 涌现能力、AGI |
LLM 背景知识
| 概念 | 说明 |
|---|
| 扩展法则 | 扩展模型/数据规模提升性能(KM、Chinchilla 扩展法则) |
| 涌现能力 | 上下文学习(ICL)、指令遵循、逐步推理 |
| 关键技术 | 扩展训练、能力引导、对齐微调、工具操作 |
GPT 系列演进
| 模型 | 关键进展 |
|---|
| GPT-3 | 引入上下文学习 |
| GPT-3.5 | 代码数据训练增强推理 |
| GPT-4 | 扩展到多模态信号 |
| ChatGPT | 对话优化 + 插件机制 |
LLM 完整流程
| 阶段 | 任务 |
|---|
| 预训练 | 大规模语料库捕捉上下文词表示 |
| 适配微调 | 指令微调 + RLHF 确保人类价值观对齐 |
| 使用 | 设计任务指令或 ICL 策略激发潜在能力 |
| 评估 | 基准测试验证复杂任务性能 |
预训练语料库
| 类型 | 内容 |
|---|
| 通用文本 | 网页、书籍、对话文本 |
| 专用文本 | 多语言文本、科学文本、代码 |
数据预处理流程
- 质量过滤(分类器/启发式)
- 去重
- 隐私去除
- 分词
未来方向
- LLM 基本原理探索(涌现能力机制)
- 训练策略优化(降低计算资源需求)
- 对齐与安全(消除潜在风险)
Comments