第十章:评价分类结果

假设有一个算法,其预测某种癌症的准确率为99.9%。这个算法好吗?

999%的准确率看上去很高,但是如果这种癌症本身的发病率只有0.1%,即使不训练模型而直接预测所有人都是健康人,这样的预测的准确率也能达到99.9%。 更极端的情况,如果这种癌症本身的发病率只有0.01%,这算法预测的准确率还不如直接预测所有人都健康。 对于极度偏斜的数据(skewed data),用准确率评价分类算法好坏有局限性。 解决方法:混淆矩阵

工具:混淆矩阵,以二分类为例

0 - Negative - 阴性, 1 - Positive - 阳性 1是我们关注的部分。

预测值:0

预测值:1

真实值:0

预测Negative正确 TN

预测Positive错误 FP

真实值:1

预测Negative错误 FN

预测Positive正确 TP

Last updated