我应该在ROC图中看到一个默认阈值为0.5的决策树吗?

hscheelhscheel 成员职位:1学我
2022年9月编辑 帮助
我正在运行TrainingResources的“酒店应用程序性能测量解决方案”流程。乐鱼体育安装我以为我理解ROC的概念,但现在我对那个具体的例子感到困惑。从混淆矩阵(粘贴在下面的底部)中,我认为FPR为6%,TPR为33%,我在ROC上发现(黑线相交于(6%;33%)。但后来我想到,RapidMiners二元分类阈值是0.5,0.5阈值对应的ROC点更多的是在(10%;43%),如下图绿线所示。

这是否意味着0.5不是本例中使用的分类阈值?还是我遗漏了什么?

任何提示都非常感谢!

谢谢你!
Holger。

Tripartio

答案

  • TripartioTripartio 成员职位:37Maven
    2022年11月编辑
    @hscheel这是个好问题。我也有类似的问题,在对不同的数据集和不同的过程进行了大量测试后,我想我已经弄清楚了这是如何工作的。

    我相信你的逻辑是合理的,但你可能看错了ROC图。有三个可能相关的ROC图,有三个不同的AUC测量值性能(二项分类)性能操作符。它们在如何处理两个或多个示例(案例,行,观察值)具有相同概率估计但具有不同真值的情况下存在差异:
    • AUC(乐观)通过首先排序正确的估计(真阳性)来处理捆绑概率估计,从而提高到更高(乐观)的AUC分数。
    • AUC(悲观)通过首先分类错误的估计(假阳性)来处理捆绑概率估计,从而减少到较低的(悲观的)AUC分数。
    • AUC取AUC(乐观)和AUC(悲观)的平均值作为单个AUC分数,试图表示对关系的随机排序。
    然而,据我所知,RapidMiner中的分类矩阵仅基于AUC(乐观)ROC,而不是平均AUC ROC。因此,尝试在性能(二项分类)操作符中选择AUC(乐观)ROC作为选项。

    然而,还有另一个重要的复杂性:当您使用交叉验证时,ROC阈值可能与分类矩阵不完全匹配,因为所显示的结果不代表单一分类,而是交叉验证的k折叠的平均值。因此,不要期望阈值与交叉验证完全匹配。正如我在这里解释的那样,要使其匹配,您应该运行没有交叉验证的单个模型(分割验证应该很好)然后分类矩阵应该确实对应于ROC图中蓝线上的0.5阈值。

    下面是我的一个测试中的例子:

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:909独角兽
    嗨!

    中华民国根本没有看到50%的“一个”门槛,只是看到信心。信心指数中的步骤就是图表中的步骤。

    在每个置信水平上计算假阳性率和真阳性率。

    尝试一个有几个邻居的k-NN(例如3),没有距离加权。这将可能的阈值限制为只有几个值。这样计算图表中的值就容易多了。

    问候,

    Balazs
登录注册置评。