分类模型中的相关性——如何分类

AGrabowiczAGrabowicz 成员职位:3.贡献我
2019年8月编辑 帮助

你好所有的,

我要解决一个分类问题。有10个班(1、2、3、4、……)我想通过最高的相关性来优化我的模型参数,因为在现实生活中,类1应该与类2具有相对相似的特征,同时与类10的相似性非常低。

如果我理解正确的话,在性能(分类)操作符的相关性计算如下:
Cov(L,P) / sqrt(V(L)*V(P))
式中:P=预测,L=标签,V=方差,Cov=协方差。

然而,当我将标签类1,2,3等视为多项式时,RapidMiner为它们提供了相当随机的整数索引(基于此相关性稍后计算),我无法控制。因此,相关性计算不正确。

是否有任何方法强制RapidMiner将多标称标签1视为1(索引),标签2视为2(索引)等?

提前感谢!

标记:

最佳答案

  • 土地土地 RapidMiner认证分析师,RapidMiner认证专家,成员职位:2531年独角兽
    解决方案接受

    你好,

    在我看来,基于成本的方法与非统一的成本矩阵将更容易和更安全,因为它将以RapidMiner设计的方式工作。或者,您可以将预测后的标称值替换为数字,并计算标准性能(回归)相关性。

    问候,

    塞巴斯蒂安。

    sgenzer

答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    我认为Map或Remap操作符是你需要的。

    sgenzer
  • AGrabowiczAGrabowicz 成员职位:3.贡献我

    你好,塞巴斯蒂安,

    感谢您建议将标称标签和预测转换为数值,然后再进行性能(回归)运算符。这似乎是解决问题的立竿见影的办法。但是,你能详细说明一下基于成本的方法吗?

    谢谢!

  • AGrabowiczAGrabowicz 成员职位:3.贡献我

    实际上,我自己找到了“基于成本的方法”的答案。与其使用性能(分类)运算符,不如使用性能(成本)运算符,并相应地设置适当的权重。

    谢谢你!

    亚当

    sgenzer
登录注册置评。