正向类分配逻辑
嗨rapidminers,
类似的话题已经在这里的许多帖子中讨论过了(是的,我都读过了……),但最终还是会变得非常不清楚。
比如说,我们有一个二叉分类器和两个类,1/0或Yes/No或true/false,等等。
我们优化了对回忆的性能,即真正确率:
标签与正类和负类之间有一个内部映射,但这是事先不知道的。
因此,我们在回忆中看到,正类被分配到标签0:
在我的例子中,0是“好”,所以我们优化了对好情况的最佳预测(例如,在现实生活的问题中,这可能意味着正确检测出最大数量的好事务,代价可能是让一些坏事务通过)。但事实上,这只有在绩效评估之后才能知道,当我们看到一个积极的班级被分配了什么标签时。
我们怎么能事先知道分配类的正负逻辑是什么,不管实际的标签?
我知道'REMAP BINOMIALS'这是一个有点棘手的操作,因为它改变了内部映射,但对可见结果没有影响;因此,如果我在这里以任何方式应用它,无论重新映射,我仍然总是会得到'positive class: 0'。
这开始把我逼疯了,因为我觉得不理解先验,我到底在优化什么类回忆。
谁能再解释一遍分配类的逻辑以及是否有任何故意改变它的方法?或者RapidMiner逻辑总是以某种特定的方式为每个特定的数据集/进程选择正类,一旦我们发现在这种情况下什么是实际的正类,我们就必须接受它?
非常感谢。
最佳答案
-
IngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区管理员、rmresearch研究员、成员、大学教授职位:1751年RM创始人
你好,
好吧,这确实是操作符“Remap Binominals”的用例。这里定义了哪个是正类哪个是负类。我在下面附上了一个样本。
内部逻辑非常简单:内部映射中的第一个标称值变成正数。你如何成为第一个值?通过在加载其他值之前加载到RapidMiner。因此,您可以更改原始数据源中的顺序,以便第一个示例具有希望为正的类。尽管这可以工作,但这似乎太麻烦了。或者像下面的示例过程一样使用“Remap Binominal”。如果我对其中一个类更感兴趣(相对于一般精度或基于成本的优化),我就会这样做。
所以,你提到的操作符是正确的。这就引出了我的第二部分:你怎么知道你首先需要做出改变呢?当然,您可以先运行验证,然后查看您想要的类是否在顶部被提到为正类,例如,“recall”的性能查看器。或者你可以在所有情况下使用“重映射二项式”,只是为了确保。但在示例集本身中也有一个(非常微妙的)提示,即在“Chart”视图中。如果你有两个类,并在散点图中可视化点,正类是第二个红色的类。正如我所说,这很微妙,但至少是一种不需要首先运行验证就能判断什么是积极的方法。
希望这有助于,流程如下。
欢呼,
Ingo
< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.6.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<操作员激活="true" class="检索" compatibility="7.6.001" expanded="true" height="68" name="检索声纳" width="90" x="45" y="34">.
< /操作符>
< /操作符>
<过程扩展= " true " >. . 在训练阶段,在当前训练数据集上建立模型。(默认90%的数据,10次)
> < /过程
<过程扩展= " true " >
<列出关键= " application_parameters " / >
< /操作符>
< /操作符>. . . . 训练步骤中创建的模型应用于当前测试集(10%)
> < /过程一个评估决策树模型的交叉验证
< /操作符>
<操作员激活="true" class="检索" compatibility="7.6.001" expanded="true" height="68" name="检索声纳(2)" width="90" x="45" y="340">.
< /操作符>
< /操作符>.
< /操作符>
<过程扩展= " true " >. . 在训练阶段,在当前训练数据集上建立模型。(默认90%的数据,10次)
> < /过程
<过程扩展= " true " >
<列出关键= " application_parameters " / >
< /操作符>
< /操作符>. . . 训练步骤中创建的模型应用于当前测试集(10%)
> < /过程一个评估决策树模型的交叉验证
< /操作符>. .
> < /过程
< /操作符>
> < /过程5
答案
这是一个很好的问题,我也想知道是否有一种特定的方法来迫使RapidMiner对给定的类进行积极的性能度量。
Lindon合资企业
乐鱼平台进入数据科学咨询由认证的RapidMiner专家
这件事我得给办公室打电话。@IngoRM?
谢谢@IngoRM,学习一个新的RapidMiner技巧总是很棒的!
Lindon合资企业
乐鱼平台进入数据科学咨询由认证的RapidMiner专家
谢谢@IngoRM!
这一切似乎都是合乎逻辑和正确的,除了一个事实(我发誓!)由于某种原因,“REMAP BINOMIALS”对类映射没有任何影响,当我以前今天尝试它时,或者它只是艰难的一周的结束……不知道。我刚刚再次尝试,它神奇地工作和重新映射类。是的,这就是我想要实现的。
大家周末好!
弗拉基米尔•
http://whatthefraud.wtf
Suuuuuure: smileytongue:
也许您不小心在参数设置中交换了两个类或类似的事情。不管怎样,我很高兴它现在起作用了。
周末愉快!