显存占用估算帮助规划硬件资源,核心公式:模型参数 + 梯度 + 优化器状态 + 激活值。
显存组成
| 组件 | FP32 训练 | FP16 训练 |
|---|---|---|
| 模型参数 | 4×参数量 | 2×参数量 |
| 梯度 | 4×参数量 | 2×参数量 |
| 优化器状态 | 8×参数量 | 4×参数量 |
经验法则:全精调约需 16GB 显存/十亿参数。
典型模型显存需求
| 模型 | 参数量 | FP16 显存 |
|---|---|---|
| LLaMA 3 70B | 70B | ~140GB |
| LLaMA 4 Scout | 109B | ~218GB |
| 128K KV 缓存 | - | ~40GB |
优化策略
| 策略 | 显存节省 |
|---|---|
| 混合精度训练 | ~50% |
| 梯度检查点 | 以计算换显存 |
| 量化(INT8/FP8) | 50%-75% |
| FSDP 分片 | 多卡分摊 |
张芷铭的个人博客
Comments