CICC科普栏目|二元分类模型是什么样子的?从这个视角,更好理解AUC曲线!

来源:DeepHubIMBA
我们先看看一个auc曲线 。
CICC科普栏目|二元分类模型是什么样子的?从这个视角,更好理解AUC曲线!
文章图片
蓝色曲线下的面积(我的模型的AUC)比红线下的面积(理论随机模型的AUC)大得多 , 所以我的模型一定更好 。
我的模型比随机模型好多少呢?理论随机模型只是对角线 , 这条对角线下的面积是0.5 , 我们的模型的AUC是0.75那么这个0.75的AUC值究竟代表什么?
首先 , 我们要了解AUC是为一个可以给出概率分数的模型定义的 。 另外一点是 , 它是为二元分类任务定义的 。 但是也可以推广到多类分类问题 。
我们要牢记以上这两点 , 这样才可以继续解释这个问题 。
二元分类模型是什么样子的?
简单地说 , 给定一个数据点 , 比如x , 它可以有许多特征 , 任何这样的数据点的类只能有两种可能性 , 要么是1 , 要么是0 。 而模型一般都会预测样本为1的概率(0-1之间的一个数值) 。
也就是说 , 它不是直接断言类 , 而是预测一个类的概率 。
我们得到了这个分数 , 可以把它看作是一个信心的衡量标准 。 如果你把钱押在两匹马上 , x1和x2 。 你记录下它们的特征 , 然后通过分类器 。 第一个赢的概率是0.90第二个赢的概率是0.85 。 这两匹马都有相当不错的胜率 , 虽然这两个马的分类都是“win”(因为概率都超过了50%) 。 但是如果只有在一匹马上下注的钱 , 那么根据概率你会选择哪匹马呢?
CICC科普栏目|二元分类模型是什么样子的?从这个视角,更好理解AUC曲线!】在上面的讨论中 , 我们忽略了一个假设 , 这正是直观理解AUC的最基本方面 。 我如何判断这两匹马都属于这个类别呢?因为他们获胜的概率都很高(>0.5) 。 但是有多高呢?
为什么把这两匹马都归为类别获胜似乎是一件显而易见的事情?
因为在0到1的范围内(这是任何概率的范围) , 大于0.5或0.55的值应该被视为高值 。 但是 , 如果你真的要下注 , 而一匹马的概率是0.60 , 你会下注吗?我不这么认为!也就是说 , 你不关心0.5的门槛 , 你有一个更高的门槛因为你是在用真的钱在冒险 , 所以你可能会想拒绝0.6的那匹马是明智的 。
如果把阈值提高到0.95上面提到的马x1和x2都会被拒绝 。 但是如果你的门槛是0.88 , 那你会选择x2而拒绝x1 。
也就是说 , 当涉及概率评分时分类结果将取决于0-1范围内阈值的选择 。
这里我们首先假设有一个上帝模型 , 它会知道哪匹马会赢 , 所以它会输出获胜的概率分数 , 赢的马的概率分数为0.999 , 其他所有马的概率分数为0.0001 。 另外一个假设你是一个“傻瓜” , 你会相信即使是一匹赢的概率等于0.1的马也会赢 。
当我们的模型给出胜出的概率为0.25时 , 你肯定直接去柜台把钱押在那匹马身上(0.25>0.1) 。 但是如果你有上帝模型 , 它会直接输出0.0001,而你的阈值是0.1 , 因此你也不会在那匹马上下注 , 所以即使你是“傻瓜” , 但上帝模型很好也可能给你正确的答案 。 也就是说无论你的阈值是多少 , 如果这个模型都很好 , 你就不会有损失 。
因此 , 无论你的阈值是0.9还是0.95 , 上帝模型都会输出获胜马的概率分数为0.999 , 这将高于做出决定而设置的任何阈值 。 因此你将永远赢钱 , 永远不会赔钱 。
对于上帝模型来说 , True-Positive率总是1 , False-Positive率总是0 。 上帝模型的ROC曲线可以说是不存在的 , 因为在绘制它时 , 你会发现只有一个点 , FP等于0 , TP等于1 。
TPR和FPR
让我们继续说说TPR和FPR 。