- 张芷铭的个人博客

bfloat16（全称 Brain Floating Point 16-bit）是一种专为 深度学习/AI 计算 设计的 半精度浮点数据格式，核心特点是“保留 FP32 的数值范围，牺牲部分精度换取更高性能和更低显存占用”。其中的“b”来自“Brain”，源于其最初由 Google Brain 团队研发，专为大模型训练/推理优化。

一、先搞懂：bfloat16 的“精度到底是什么水平？”

要理解 bfloat16 的精度，需先看浮点格式的 比特分配（浮点数据由“符号位+指数位+尾数位”组成，位数分配直接决定范围和精度）：

数据格式	总比特数	符号位（S）	指数位（E）	尾数位（M）	核心特点（精度+范围）
FP32（单精度）	32	1	8	23	高精度、大范围（AI 训练传统格式）
FP16（半精度）	16	1	5	10	精度中等、范围小（易溢出）
bfloat16	16	1	8	7	范围≈FP32，精度≈FP16的1/2

精度通俗解读：

数值范围：指数位长度和 FP32 完全一致（8位），所以能表示的数值范围（最小/最大值）和 FP32 几乎相同，不会像 FP16 那样因指数位短而频繁“溢出”（比如深度学习中梯度值极小/极大时，FP16 可能无法表示，bfloat16 则可以）。
数值精度：尾数位仅7位（FP32 是23位，FP16 是10位），所以“小数的精确表示能力”介于 FP32 和 FP16 之间——比如能精确表示整数到 128（2^7），超过后会丢失小数精度，但对 AI 计算来说，这种精度损失完全可接受（模型训练/推理对“精确到小数点后多位”要求不高，更看重“数值范围”和“计算效率”）。

二、为什么叫“bfloat16”？“b”的核心意义

“b”是 Brain 的缩写，源于其研发背景：

2017年前后，Google Brain 团队在研发大模型（如早期 Transformer、TPU 芯片）时，发现传统 FP32 显存占用大、计算速度慢，而 FP16 虽然快，但指数范围小，容易在训练中出现“梯度溢出”（梯度值太小/太大，FP16 无法存储，导致训练崩溃）。
为解决这个矛盾，Google Brain 设计了 bfloat16：保留 FP32 的 8 位指数位（保证范围），将尾数位压缩到 7 位（减少比特数），既实现了 16 位的存储效率，又避免了 FP16 的溢出问题，完美适配 AI 训练场景。
因此命名为“Brain Floating Point 16-bit”，简称 bfloat16，核心是突出其“为 AI 大脑（大模型）设计”的定位。

三、bfloat16 为什么能成为 AI 计算的“主流格式”？

核心优势是 “范围与效率的最佳平衡”，解决了 FP32 和 FP16 在 AI 场景中的痛点：

1. 对比 FP32：显存减半，速度翻倍

存储占用：bfloat16 仅占 2 字节（16位），FP32 占 4 字节，相同模型权重/数据，用 bfloat16 可节省 50% 显存（比如 10GB 的 FP32 模型，bfloat16 下仅需 5GB）。
计算速度：GPU/TPU 的 ALU（运算单元）处理 16 位数据时，吞吐量是 32 位的 2~4 倍（比如 A100 GPU 的 bfloat16 算力是 FP32 的 2 倍），大模型训练/推理速度大幅提升。
带宽节省：数据在内存/显存之间传输时，16 位数据的传输量减半，缓解“Roofline 模型中的带宽瓶颈”（尤其适合大模型的海量数据传输）。

2. 对比 FP16：避免溢出，训练更稳定

指数范围大：bfloat16 的指数位是 8 位，能表示的数值范围是 1.4×10^-38 ~ 3.4×10^38，和 FP32 完全一致；而 FP16 的指数位仅 5 位，范围是 6.1×10^-5 ~ 6.5×10^4，在深度学习训练中（比如梯度下降时的微小梯度、激活函数的极端输出）极易溢出，导致模型训练崩溃。
精度损失可接受：AI 模型对“绝对精度”不敏感，更看重“相对精度”——bfloat16 的 7 位尾数位虽然比 FP16 少 3 位，但在模型训练中，通过 batch normalization、梯度裁剪等技术，完全可以弥补精度损失，最终模型效果和 FP32 几乎无差异。

3. 硬件原生支持：AI 芯片的“标配”

现在主流 AI 硬件（Google TPU、NVIDIA A100/H100、AMD MI250、Intel Ponte Vecchio）都对 bfloat16 提供 原生硬件加速，ALU 可直接执行 bfloat16 的运算，无需软件转换，效率拉满。
框架深度适配：PyTorch、TensorFlow、JAX 等主流 AI 框架已默认支持 bfloat16，开发者只需一行代码即可启用（如 torch.cuda.amp.autocast(dtype=torch.bfloat16)）。

四、bfloat16 的典型应用场景（AI/CV 重点）

大模型训练：Transformer、扩散模型（如 Stable Diffusion）、GPT 类模型的训练首选 bfloat16，兼顾显存占用、训练速度和稳定性（Google 的 PaLM、Gemini 等大模型均用 bfloat16 训练）。
CV 模型推理：目标检测（YOLO）、图像分割（DeepLab）等模型的推理阶段，可用 bfloat16 替代 FP32，在保证精度的前提下，提升推理帧率（尤其适合边缘 GPU 设备）。
TPU 专属优化：bfloat16 是 Google TPU 的“原生格式”，TPU 的 MXU（矩阵运算单元）对 bfloat16 的支持效率远超 FP16，用 TPU 训练/推理时，bfloat16 是最优选择。

五、总结：bfloat16 的核心价值

bfloat16 是 AI 领域为“平衡精度、速度、显存”而设计的 专用半精度格式：

“b”的含义：源于 Google Brain，标志其为 AI 大模型量身定制；
精度特点：范围≈FP32（避免溢出），精度≈FP16（可接受损失）；
核心优势：显存减半、速度翻倍、训练稳定，是现代 AI 计算的“黄金格式”。

对于 AI/CV 开发者而言，理解 bfloat16 的意义在于：在模型训练/推理时，优先选择 bfloat16 格式（而非 FP32 或 FP16），能以极小的精度损失换取大幅的性能提升，尤其适合大模型和大规模 CV 任务（如批量图像处理、视频流分析）。