多标称属性之间的相关性?

rapid1234rapid1234 成员职位:5学我
你好,我在处理员工流失数据集,有一个问题。数据集包含数值、二项式和多项式值。对于数值和生物项值,我可以使用操作符相关性矩阵,并查看对目标变量属性的依赖关系。如何处理多项式值,比如商务旅行?我可以使用标称运算符到数字运算符吗?或者有更好的替代方案来显示标签和多项式值之间的依赖关系?

谢谢你!
标记:

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    非数值数据类型没有定义相关性。你需要使用一种对名义数据有效的测量方法,例如基尼指数。
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • rapid1234rapid1234 成员职位:5学我
    @mschmitz我必须选择“标准化权重”在基尼指数?除此之外,相关性非常低。
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    通常不会。Normalize weight以一种方式将所有值归一化,最高值为1。

    请记住,基尼系数的归一化与相关系数的归一化是完全不同的。gini指数为0.1通常是一个强大的属性。

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
登录注册置评。