交叉熵损失衡量模型预测概率分布与真实标签分布的差异,是分类任务的核心损失函数。
数学定义
二分类
$$\text{CE}(p, y) = - [y \log(p) + (1 - y) \log(1 - p)]$$
多分类
$$\text{CE}(p, y) = - \sum_{i=1}^{C} y_i \log(p_i)$$
| 符号 | 含义 |
|---|---|
| $p$ | 预测概率 |
| $y$ | 真实标签 |
| $C$ | 类别数 |
核心特点
| 特点 | 说明 |
|---|---|
| 鼓励高置信度 | 预测越准损失越小 |
| 与似然函数相关 | 最小化交叉熵等价于最大化似然 |
| 适用分类任务 | 与 softmax 结合使用 |
示例
真实标签 $y=1$,预测 $p=0.8$: $$\text{CE} = -\log(0.8) \approx 0.223$$
预测 $p=0.2$: $$\text{CE} = -\log(0.2) \approx 1.609$$
预测越不准确,损失越大。
张芷铭的个人博客
Comments