交叉熵损失衡量模型预测概率分布与真实标签分布的差异，是分类任务的核心损失函数。

数学定义

二分类

$$\text{CE}(p, y) = - [y \log(p) + (1 - y) \log(1 - p)]$$

$$\text{CE}(p, y) = - \sum_{i=1}^{C} y_i \log(p_i)$$

真实标签 $y=1$，预测 $p=0.8$： $$\text{CE} = -\log(0.8) \approx 0.223$$

预测 $p=0.2$： $$\text{CE} = -\log(0.2) \approx 1.609$$

预测越不准确，损失越大。