快速挖掘和Excel删除重复功能的结果之间的差异

sshabanosshabano 成员职位:2贡献我
2018年12月编辑 帮助

美好的一天。
我是第一次使用RM。
我需要在预处理步骤中从我的数据集中删除重复项。
所以,

我有7621个样本作为原始集合。

我使用excel的“删除重复”功能,结果得到6830行(示例)。

因为,我在RM运行的项目,我需要清理我的数据通过它的操作符。因此,我使用“删除重复操作符”,我选择了“项目名称”属性并运行进程。结果我得到了6854个例子。
我的问题是为什么我有结果的例子(6854通过RM和6830通过Excel)之间的差异。
我将我的流程附在这条消息中,请支持我处理这个问题。

提前谢谢你。

jb.xml 8.1 k
标记:

答案

  • earmijoearmijo 成员职位:265独角兽

    如果不提供数据集,就无法确定。实验勾选/取消勾选“包含特殊属性”选项。

  • sshabanosshabano 成员职位:2贡献我

    我附上了xml文件。

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    xml文件不允许我们实际看到数据,只是你检索它作为你的过程的一部分…

    要测试的另一件事是,如果属性是多标称的,那么是否有任何前导或尾随空格作为要重复数据的属性的一部分。你可以首先使用RapidMiner中的“Trim”操作符来确保它没有。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    sgenzer
登录注册置评。