张芷铭的个人博客

训练指标 `Train-Avg Probability` 的含义

训练指标 Train-Avg Probability 的含义

Train-Avg Probability(训练集平均预测概率)是一个重要的监控指标,它能提供以下关键训练信息:

1. 模型置信度评估

  • 意义:反映模型对预测结果的总体置信程度
  • 健康范围:理想情况下应在0.5附近波动(二分类平衡时)
  • 典型场景
    • 接近0.5 → 模型对分类不确定(可能是正常学习过程)
    • 接近0/1 → 模型过于自信(可能过拟合或数据不平衡)
    • 持续偏向某侧 → 可能标签分布不平衡

2. 训练问题诊断

现象可能原因解决方案
持续接近0或1- 过拟合
- 标签泄漏
- 数据不平衡
- 检查数据分布
- 增加正则化
- 调整类别权重
剧烈震荡- 学习率过高
- 批次太小
- 降低学习率
- 增大batch size
长期稳定0.5- 模型未学习
- 特征无关
- 检查数据质量
- 修改模型结构

3. 与其他指标的联合分析

  • 配合Loss观察
    • Loss下降但概率极端 → 可能过拟合
    • Loss不降且概率0.5 → 模型未收敛
  • 配合Accuracy观察
    • 高准确率+合理概率 → 健康模型
    • 高准确率+极端概率 → 可疑的过拟合

4. 实际训练示例

1
2
3
4
5
6
7
# 典型健康训练过程的指标变化
Epoch 1: Avg Prob=0.51 | Loss=0.69 | Acc=0.60
Epoch 5: Avg Prob=0.55 | Loss=0.62 | Acc=0.71
Epoch 10: Avg Prob=0.58 | Loss=0.53 | Acc=0.78  # 逐步建立合理置信度

# 过拟合示例
Epoch 15: Avg Prob=0.92 | Loss=0.10 | Acc=0.99  # 概率极端化预警

5. 扩展建议

  • 进阶监控
    1
    2
    3
    4
    
    wandb.log({
        "Prob_Histogram": wandb.Histogram(all_probs),  # 概率分布直方图
        "Prob_Std": np.std(all_probs)  # 概率标准差(反映稳定性)
    })
    
  • 不平衡数据适配
    • 当正负样本比例悬殊时,可计算类别加权平均概率
    • 对比Avg Probability与正样本比例,检测偏差

这个指标就像模型的"体温计",能提前发现许多潜在问题,特别是在深度学习模型的黑箱训练过程中,提供宝贵的可解释性信息。

💬 评论