二分类变量和连续变量之间的相关性

filipedgbfilipedgb 成员职位:2贡献我
2018年12月编辑 帮助

我在rapidminer上使用了运算符“Correlation Matrix”,我相信它使用了Pearson Correlation,并且该运算符能够计算每个变量类型的相关性,包括二项(二分)和多项式。

我想知道:操作符是如何计算相关性的,例如在一个二项式和一个数值属性之间?皮尔逊相关性不是只允许数值变量吗?它是简单地将二项式转换为0和1,还是做了其他事情?

提前感谢,
菲利浦- G.B.

标记:

最佳答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受
    我相信它正在对任何名义属性进行顺序整数编码。当然,对于多标称数据来说,这在相关性可解释性方面是非常值得怀疑的,但对于二标称数据来说,这是有意义的。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    filipedgb

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家

    嘿,

    RapidMiner在内部为所有标称类型使用到整数的映射。这个映射用于关联。这在统计上不太好。所以如果你做了,我们就给你出个问题。

    ~马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    filipedgb
  • filipedgbfilipedgb 成员职位:2贡献我

    谢谢你的回答

  • azziaty256azziaty256 成员职位:4贡献我

    嗨,我是RapidMiner的新用户

    实际上我有31个属性和10K个实例。我想用相关矩阵来表示属性之间的关系。问题是我有很多类型的数据,包括标称数据,多标称数据和数值数据,我可以知道很多类型的数据的相关矩阵的过程是什么吗?

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    正如之前在这篇文章中所解释的,典型的“相关分析”只适用于数值变量。你期望名义数据的相关系数告诉你什么?

    如果希望使用具有相关性的标称数据,最好先将其重新编码为一系列二项式/虚拟变量。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
登录注册置评。