类别

版本

比较民国(RapidMiner Studio Core)

剧情简介

该算子为学习者在其子过程中创建的模型生成ROC图,并在同一绘图仪中绘制所有图表以进行比较。

描述

Compare roc操作符是一个嵌套操作符,即它有一个子进程。子流程中的操作符必须生成一个模型。这个算子计算所有这些模型的ROC曲线。所有的ROC曲线都绘制在同一个绘图仪上。

比较是基于k倍交叉验证的平均值。有关交叉验证的更多信息,请阅读交叉验证操作符的文档。或者,该操作符可以使用内部拆分为给定数据集的测试集和训练集,在这种情况下,操作符的行为类似于拆分验证操作符。请注意,在应用此操作符期间,将删除给定ExampleSet的任何先前预测标签。

ROC曲线是二元分类器系统的灵敏度或真阳性率与假阳性率(1减去特异性或真阴性率)的图形图,因为其判别阈值是不同的。ROC也可以通过绘制阳性中真阳性的比例(TPR =真阳性率)与阴性中假阳性的比例(FPR =假阳性率)来表示。

ROC曲线的计算方法是先对分类样本进行置信度排序。然后考虑所有的例子,置信度递减,在x轴上绘制假阳性率,在y轴上绘制真阳性率。在乐观、中性和悲观的情况下,计算ROC曲线有三种可能。如果乐观ROC计算的置信度有一个以上的例子,则在查看错误分类之前考虑正确分类的例子。悲观的计算则正好相反:在看到正确的分类之前,会先考虑错误的分类。中性计算是上述两种计算方法的混合。这里交替考虑正确和错误的分类。如果没有相同置信度的样本,或者所有相同置信度的样本都被分配到同一类,那么乐观、中性和悲观的ROC曲线将是相同的。

输入

  • 榜样(数据表)

    这个输入端口需要一个带有二名标签的ExampleSet。它是附带的示例流程中的Retrieve操作符的输出。其他运算符的输出也可以用作输入。

输出

  • 榜样(数据表)

    作为输入给出的ExampleSet不会通过该端口更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

  • rocComparison(中华民国比较)

    所有模型的ROC曲线都是从这个端口发送的。所有的ROC曲线都绘制在同一个绘图仪上。

参数

  • number_of_folds此参数指定用于交叉验证评估的折叠数。如果此参数设置为-1,则该操作符使用分割比率,其行为类似于分割验证操作符。范围:整数
  • split_ratio该参数指定训练集的相对大小。它应该在1到0之间,其中1表示整个ExampleSet将被用作训练集。范围:真正的
  • sampling_type可以使用几种类型的采样来构建子集。以下选项可用:
    • 线性抽样:线性抽样简单地将ExampleSet划分为分区,而不改变示例的顺序,即创建具有连续示例的子集。
    • 洗牌采样:洗牌采样构建ExampleSet的随机子集。随机选择示例来创建子集。
    • 分层抽样:分层抽样构建随机子集,并确保子集中的类分布与整个ExampleSet中的类分布相同。例如,在二项分类的情况下,分层抽样构建随机子集,以便每个子集包含类标签的两个值的大致相同的比例。
    选择范围:
  • use_local_random_seed该参数表示a局部随机种子应用于子集的随机化示例。使用相同的值局部随机种子将产生相同的子集。改变这个参数的值会改变样本随机化的方式,因此子集会有不同的样本集。仅当选择“shuffle”或“Stratified sampling”时有效。它不适用于线性抽样,因为它不需要随机化,样本是按顺序选择的。范围:布尔
  • local_random_seed此参数指定局部随机种子。此参数仅在使用当地的随机种子参数设置为true。范围:整数
  • use_example_weights此参数表示是否应考虑示例权重。如果此参数未设置为true,则每个示例使用权重1。范围:布尔
  • roc_bias该参数决定了如何评估ROC,即首先,最后或交替计数正确的预测。ROC曲线的计算方法是先对分类样本进行置信度排序。然后考虑所有的例子,置信度递减,在x轴上绘制假阳性率,在y轴上绘制真阳性率。在乐观、中性和悲观的情况下,计算ROC曲线有三种可能。如果没有相同置信度的样本,或者所有相同置信度的样本都被分配到同一类,那么乐观、中性和悲观的ROC曲线将是相同的。
    • 乐观的:如果有一个以上的乐观ROC计算的置信度的例子,在查看错误的分类之前,会考虑正确的分类例子。
    • 悲观的:悲观的计算在看到正确的分类之前会考虑错误的分类。
    • 中性:中性计算是乐观和悲观计算方法的混合。这里交替考虑正确和错误的分类。
    选择范围:

教程的过程

用ROC曲线对不同分类器进行图形化比较

这个过程显示了几个不同的分类器如何通过多个ROC曲线进行图形化比较。使用检索操作符加载“Ripley-Set”数据集。比较roc操作符应用于它。看一下Compare roc操作符的子流程。你可以看到三种不同的学习器被应用,即朴素贝叶斯,规则归纳和决策树。生成的模型连接到子流程的输出。比较ROC操作符计算所有这些模型的ROC曲线。所有的ROC曲线都绘制在同一个绘图仪中,可以在结果工作区中看到。