美好的一天。
我是第一次使用RM。
我需要在预处理步骤中从我的数据集中删除重复项。
所以,
我有7621个样本作为原始集合。
我使用excel的“删除重复”功能,结果得到6830行(示例)。
因为,我在RM运行的项目,我需要清理我的数据通过它的操作符。因此,我使用“删除重复操作符”,我选择了“项目名称”属性并运行进程。结果我得到了6854个例子。
我的问题是为什么我有结果的例子(6854通过RM和6830通过Excel)之间的差异。
我将我的流程附在这条消息中,请支持我处理这个问题。
提前谢谢你。
答案
如果不提供数据集,就无法确定。实验勾选/取消勾选“包含特殊属性”选项。
我附上了xml文件。
xml文件不允许我们实际看到数据,只是你检索它作为你的过程的一部分…
要测试的另一件事是,如果属性是多标称的,那么是否有任何前导或尾随空格作为要重复数据的属性的一部分。你可以首先使用RapidMiner中的“Trim”操作符来确保它没有。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询