FPGrowth的预处理
guilhermecr
成员职位:4贡献我
我用的是篮子分析法。我已经用其他程序生成了二项式格式。
我可以使用什么RM操作符来从这种格式转换数据集:
1、3
2、3、4
1、2、3
:
1, 0, 1, 0
0, 1, 1, 1
1, 1, 1, 0
提前感谢
我可以使用什么RM操作符来从这种格式转换数据集:
1、3
2、3、4
1、2、3
:
1, 0, 1, 0
0, 1, 1, 1
1, 1, 1, 0
提前感谢
标记:
0
答案
您的数据格式称为密集格式,因为它只保存不等于0的列的索引。RapidMiner支持密集格式,但它与您的格式略有不同。如果你能把你的资料以下列格式带来,你可以很容易地加载它:
1:1 3:1
2:1, 3:1, 4:1
1:1 2:1 3:1
如果您使用操作符SparseFormatExampleSource,将参数格式设置为no_label,并将参数维度设置为维度数(文件中出现的最高数字),那么它就可以工作。
问候,
塞巴斯蒂安。
我使用了可在http://fimi.cs.helsinki.fi/data/retail.dat,这是密集格式。
但由于我将从朋友的商店获得我自己的数据,我的问题是:
使用RM进行市场篮子分析的最佳格式是什么?
谢谢
PS:我可能会使用Apriori和FPGrowth。