分类任务评估指标源于混淆矩阵,Precision、Recall、F1 适用于不同场景。
混淆矩阵
核心指标
| 指标 | 公式 | 适用场景 |
|---|
| Precision | $\frac{TP}{TP+FP}$ | 误报代价高(医疗、垃圾邮件) |
| Recall | $\frac{TP}{TP+FN}$ | 漏报代价高(安全检测) |
| F1 Score | $\frac{2 \cdot P \cdot R}{P+R}$ | 平衡误报和漏报 |
| Accuracy | $\frac{TP+TN}{Total}$ | 类别均衡任务 |
代码实现
1
2
3
4
5
| from sklearn.metrics import precision_score, recall_score, f1_score
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)
|
各任务评估指标
| 任务 | 指标 |
|---|
| 分类 | Accuracy, Precision, Recall, F1, AUC-ROC |
| 回归 | MSE, RMSE, MAE, R² |
| 排序 | MAP, NDCG, Precision@K |
| 聚类 | Silhouette Score, ARI, NMI |
| 生成 | FID, BLEU, ROUGE, Perplexity |
类别不均衡处理
Accuracy 在类别不均衡时失效(如 99% 负类)。优先使用 F1 或 AUC-ROC。
Comments