张芷铭的个人博客

交叉熵损失衡量模型预测概率分布与真实标签分布的差异,是分类任务的核心损失函数。

数学定义

二分类

$$\text{CE}(p, y) = - [y \log(p) + (1 - y) \log(1 - p)]$$

多分类

$$\text{CE}(p, y) = - \sum_{i=1}^{C} y_i \log(p_i)$$

符号含义
$p$预测概率
$y$真实标签
$C$类别数

核心特点

特点说明
鼓励高置信度预测越准损失越小
与似然函数相关最小化交叉熵等价于最大化似然
适用分类任务与 softmax 结合使用

示例

真实标签 $y=1$,预测 $p=0.8$: $$\text{CE} = -\log(0.8) \approx 0.223$$

预测 $p=0.2$: $$\text{CE} = -\log(0.2) \approx 1.609$$

预测越不准确,损失越大。

Comments