混淆矩阵与ROC曲线

本文最后更新于:11 分钟前

Confusion Matrix(混淆矩阵)

对于二分类问题,我们将样本根据其真实类别与学习器预测类别的组合划分为ture positive(真正例)、false positive(假正例)、true negative(真反例)、false negative(假反例)。从而构建如下所示的Confusion Matrix.

image-20220121093854643

  • Accuracy=(TP+TN)(P+N)Accuracy = \frac{(TP + TN)}{(P + N)}

  • Ture Positive Rate: TPR=TPTP+FNTPR = \frac{TP}{TP+FN}

  • False Positive Rate: TNR=TNTN+FPTNR=\frac{TN}{TN+FP}

    可以看出,TPR与TNR均是观察混淆矩阵的某一列

ROC曲线

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,源于二战中用于敌机检测的雷达信号分析技术。

很多学习器会为样本产生一个实值或预测概率,然后将这个预测值与threshold进行比较。大于阈值则为正类,反之为负类。

ROC曲线以TPR为纵轴,FPR为横轴。

image-20220121100115815

  • 对角线为Random guess,理论上
  • threshold太低,所有样本被判断为true positive,ROC曲线为左上角点
  • threshold太高,所有样本被判断为true negative,ROC曲线为左下角点。
  • 当threshold变化时,最终得到模型的TPR、FPR在曲线上滑动

根据有限个测试样例可以绘制不光滑的ROC曲线。即不断改变threshold,最终得到了一个“梯形”图。

进行学习器比较时,若一个学习器的ROC曲线被另一个学习器曲线完全“包住”,则可断言后者性能由于前者。

若两个学习器的ROC曲线发生交叉,则难以一般性断言性能优劣。此时通过AUC(Area Under ROC Curve)来判断。


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!