10-7 ROC曲线
ROC:Receiver Operation Characteristic Curve ROC曲线描述TPR和FPR之间的关系。
TPR = recall = TP / (TP + FN) # true positive rate FPR = FP / (FP + TN) # false positive rate
TPR和FPR的关系如图:
TPR和FRP呈现相一致的趋势
代码
回顾前面学过的代码
def TN(y_true, y_predict):
assert len(y_true) == len(y_predict)
return np.sum((y_true == 0) & (y_predict==0)) # 注意这里是一个‘&’
def FP(y_true, y_predict):
assert len(y_true) == len(y_predict)
return np.sum((y_true == 0) & (y_predict==1))
def FN(y_true, y_predict):
assert len(y_true) == len(y_predict)
return np.sum((y_true == 1) & (y_predict==0))
def TP(y_true, y_predict):
assert len(y_true) == len(y_predict)
return np.sum((y_true == 1) & (y_predict==1))
def confusion_matrix(y_true, y_predict):
return np.array([
[TN(y_true, y_predict), FP(y_true, y_predict)],
[FN(y_true, y_predict), TP(y_true, y_predict)]
])
def precision_score(y_true, y_predict):
tp = TP(y_true, y_predict)
fp = FP(y_true, y_predict)
try:
return tp / (tp + fp)
except: # 处理分母为0的情况
return 0.0
def recall_score(y_true, y_predict):
tp = TP(y_true, y_predict)
fn = FN(y_true, y_predict)
try:
return tp / (tp + fn)
except:
return 0.0TPR和FPR
加载测试数据
绘制TFP和FRP的曲线,即ROC

sklearn中的ROC曲线
我们通常关注这条曲线下面的面积。面积越大,说明分类的效果越好。
ROC score
ROC score代码曲线下面的面积。 auc = area under curl
输出:0.9830452674897119
总结
对于有偏数据,观察它的精准率和召回率是非常有必要的。 但是ROC曲线对有偏数据并不敏感,它主要用于比较两个模型的孰优孰劣。

如果两根曲线分别代码两个模型的ROC曲线,在这种情况下我们会选择外面那根曲线对应模型。
Last updated