混淆矩阵与ROC曲线
本文最后更新于:11 分钟前
Confusion Matrix(混淆矩阵)
对于二分类问题,我们将样本根据其真实类别与学习器预测类别的组合划分为ture positive(真正例)、false positive(假正例)、true negative(真反例)、false negative(假反例)。从而构建如下所示的Confusion Matrix.
-
-
Ture Positive Rate:
-
False Positive Rate:
可以看出,TPR与TNR均是观察混淆矩阵的某一列
ROC曲线
ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,源于二战中用于敌机检测的雷达信号分析技术。
很多学习器会为样本产生一个实值或预测概率,然后将这个预测值与threshold进行比较。大于阈值则为正类,反之为负类。
ROC曲线以TPR为纵轴,FPR为横轴。
- 对角线为Random guess,理论上
- threshold太低,所有样本被判断为true positive,ROC曲线为左上角点
- threshold太高,所有样本被判断为true negative,ROC曲线为左下角点。
- 当threshold变化时,最终得到模型的TPR、FPR在曲线上滑动
根据有限个测试样例可以绘制不光滑的ROC曲线。即不断改变threshold,最终得到了一个“梯形”图。
进行学习器比较时,若一个学习器的ROC曲线被另一个学习器曲线完全“包住”,则可断言后者性能由于前者。
若两个学习器的ROC曲线发生交叉,则难以一般性断言性能优劣。此时通过AUC(Area Under ROC Curve)来判断。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!