如何将结果文件中的数值转换回输入的原始标称值

Hung_Bui_221Hung_Bui_221 成员职位:5学我
2022年11月编辑 帮助
大家好!我只是一个刚开始学习RM几个月的初学者。我遇到了一个群体问题,需要检测异常值银行营销数据集。这是我的过程。下图).

数据集有超过40000个例子,离群检测算子对于标称值和数值似乎都太慢了,所以我决定将所有标称值更改为数值。

在运行此过程之后,我获得了结果文件,我想将之前更改的所有数值转换回原始标称值,如输入文件。手动转换绝对是最后的选择,但我想知道我是否可以通过使用RM或其他操作符尽可能快地做到这一点。

请尽快帮我找出解决这个案子的最好办法: #非常感谢。

最好的答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:915独角兽
    解决方案接受
    嗨!

    你的资料里有身份证吗?如果没有,也可以使用生成ID接线员来接电话。然后使用Join获取原始数据,并将生成的离群值添加到原始数据中。

    顺便说一下,局部离群因子是一种基于最近邻的方法,所以它对规范化输入效果最好。使用正常化在应用它之前,你应该得到更好的结果。用于获取原始数据的基于连接的方法也适用于此。

    问候,
    Balazs
    Hung_Bui_221
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:915独角兽
    解决方案接受
    嗨!

    规范化将所有数值属性更改为大致在0和1之间(或-1和1),具体取决于方法。

    最近邻方法相互比较不同属性的值。这意味着具有较大数值的属性(例如金钱金额)将支配所有其他属性(以年为单位的年龄,名义到数值转换的0/1等),并单独确定邻域。规范化避免了这种情况,并为所有属性提供了更好的机会来确定距离计算。

    问候,
    Balazs
    Hung_Bui_221

答案

  • Hung_Bui_221Hung_Bui_221 成员职位:5学我
    非常感谢您的回复。你的回答对我很有帮助。我能再问你一个问题吗?

    在我使用规范化操作符对于所有属性,数据类型和值都已更改。如年龄,首先这个属性包含客户的年龄(40、50、60岁……),但随后数据类型和值被更改为真实的(附图片)

    我想知道这是否会影响结果。: #请多告诉我一些。再次感谢你。

  • Hung_Bui_221Hung_Bui_221 成员职位:5学我
    非常感谢,Mr.Balázs。o:)你的回答非常好。
登录注册置评。