- 张芷铭的个人博客

训推一致（Train-Inference Consistency）指训练与推理阶段的数据、计算、分布、精度全链路完全等价，是算法落地的核心前提。

核心定义

训推一致：相同输入 → 训练与推理输出数值误差≤1e-4

阶段	核心目标	允许行为
训练	学习分布、更新参数	随机正则、Batch统计、梯度回传
推理	稳定输出预测	固定参数、无随机、无梯度

训推一致的本质：抹平所有改变特征分布的差异。

本质原理：推理时归一化逻辑变化引发二次协变量偏移，让训练时归一化优化失效。

训练推理用两套预处理代码，输入分布完全偏移。

准则：必须调用同一个预处理函数。

归一化类型	训练	推理	不一致后果
BN	用当前Batch均值/方差	用训练累积滑动平均	特征分布剧烈偏移
LN	计算逻辑一致	参数初始化、eps需一致	相对安全
AdaLN	条件向量→MLP→动态γ,β,α	必须复用相同MLP	DiT生成畸变

阶段	Dropout/DropPath
训练	开启
推理	必须关闭

1
2
3
4
# 推理时必写
model.eval()
with torch.no_grad():
    output = model(input)

训练FP32/BF16，推理FP16/INT8，舍入误差影响AdaLN小数值计算。

时间步嵌入→LayerNorm→SiLU→映射为γ/β，推理时少一层Norm或激活函数错误，是文生图上线效果差的第一原因。

层次	方法
代码层	预处理、网络前向、AdaLN映射共用一套代码，禁止重写
模式层	强制`model.eval()`，冻结统计量
归一化层	BN冻结滑动均值/方差，AdaLN条件处理流程完全对齐
精度层	训练推理精度对齐，量化需校准
校验层	同样本逐层对比输出，误差<1e-4