回归算子分类与多项式二项分类

mbukombuko 成员职位:10贡献我
2019年11月编辑 帮助
你好,

我有一个多类方法,使用SVM (mySVM)和一个操作符来实现多分类。问题在于,“Classification by Regression Operator”和“Polynomial by Binomial Classification”这两种可能的算子对置信度值的结果是不同的:

1)回归算子分类:置信值元素(-∞,1)。这似乎是到超平面的带符号距离。这是正确的吗?为什么没有大于1的值?(我的意思是它处于边缘。它是否依赖于核函数?)

2)二项分类多项式:置信值元素[0,1]。这是某种概率吗?定义呢?

不幸的是,我没有找到任何关于如何定义置信度值的提示(关于使用的操作符或SVM实现)。

为了使用RapidMiner和输出,我需要清楚地了解参数、置信度值和对RapidMiner操作符的依赖关系。

如果你能帮我解决这些问题,我会很高兴的!

最好的问候,
马克

PS:我已经在另一个类别中打开了一个类似的线程(https://rapid-i.com/rapidforum/index.php/topic,9418.msg31536.html
标记:

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3322年RM数据科学家
    置信度通常为[0,1]。所以在我看来1)的情况很奇怪。但我从未使用过回归分类。

    ~马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • mbukombuko 成员职位:10贡献我
    @Martin谢谢您的回复!

    不幸的是,缺少对输出和操作符的清晰描述和定义,但是我需要它,以便科学地正确工作。我期待着RapidMiner的官方回答,但目前还没有任何反应。
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3322年RM数据科学家
    你好,

    我想会有比我的帖子更正式的答案,除非你在support.www.turtlecreekpls.com上提问,但这需要许可证。我受雇于RapidMiner;这样就算是正式了?

    你能做的就是看一下源代码。按回归运算符分类的资料载于:

    https://github.com/rapidminer/rapidminer-studio/blob/master/src/main/java/com/rapidminer/operator/learner/meta/ClassificationByRegression.java

    我们在这里看到了这样的评论:

    / * *
    对于分类数据集(可能有两个以上的类),使用
    *由内部运算符指定的回归方法。对于每个类{@rapidminer.math i
    将标签设置为{后训练回归模型@rapidminer.math +1}如果标签等于
    * {@rapidminer.math i}和{@rapidminer如果不是。math -1}。然后回归模型是
    *组合成一个分类模型。为了确定一个未标记的预测
    例如,所有的模型都被应用,类属于预测的回归模型
    *选择最大的值。
    *
    *@authorIngo Mierswa, Simon Fischer
    * /
    我检查了附带的示例过程。显然,信心(我的)是[0,1],但信心(Rock)不是。出于某种原因,只有一个置信度是“正确的”。一旦我有更多的时间,我会更深入地检查代码

    ~马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • mbukombuko 成员职位:10贡献我
    @Martin谢谢你的帮助!

    注释也写在文档中。我对不同的置信度输出也有同样的问题:只有一个设置“正确”(但只有1 ?)。

    如果置信度值在[0,1]中,置信度值的定义是什么?(我想避免查看实现,但它似乎是必要的)
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3322年RM数据科学家
    通常,这是一个衡量算法对自己计算的信任程度的指标。通常这个值越高,算法越有可能是正确的。

    每个算法的计算值不同。对于一个k-nn,它是这个类的邻居的分数(在未加权的情况下)。对于SVM,该值取决于到分离超平面的距离。
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • mbukombuko 成员职位:10贡献我
    “对于SVM,该值取决于到分离超平面的距离”
    -通常是,但它也取决于SVM的实现(mySVM vs. libSVM)和包装操作符,就像线程标题中提到的两个。
    为什么相同的SVM算法的置信度值,但不同的操作员在不同的范围内(这是没有记录的)?
    在libSVM的情况下,有可能将概率估计为置信度,而不是到超平面的距离。不幸的是,关于算法等的置信度值的具体含义没有记录。

    我认为我必须研究实施,因为学术支持也没有帮助。

    感谢目前为止,我将非常高兴任何进一步的支持。
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    你好,
    你好@mschmitz

    有谁知道classficationbyregression操作符是在哪个科学基础上实现的吗?是否有一篇论文详细描述了这种集成方法是如何工作的,尽管上面提到的礼物代码?

    提前感谢您的回答!

    最好的问候!
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3322年RM数据科学家
    对不起,我没有任何参考资料,但这似乎只是一个普遍使用的“把戏”。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @mschmitz

    非常感谢您的快速回复!

    @IngoRM你能帮我写封推荐信吗?

    最好的问候!
登录注册置评。