FPGrowth的预处理

guilhermecrguilhermecr 成员职位:4贡献我
2019年6月编辑 帮助
我用的是篮子分析法。我已经用其他程序生成了二项式格式。

我可以使用什么RM操作符来从这种格式转换数据集:

1、3
2、3、4
1、2、3

:

1, 0, 1, 0
0, 1, 1, 1
1, 1, 1, 0

提前感谢:)

答案

  • 土地土地 RapidMiner认证分析师,RapidMiner认证专家,成员职位:2531年独角兽
    你好,
    您的数据格式称为密集格式,因为它只保存不等于0的列的索引。RapidMiner支持密集格式,但它与您的格式略有不同。如果你能把你的资料以下列格式带来,你可以很容易地加载它:
    1:1 3:1
    2:1, 3:1, 4:1
    1:1 2:1 3:1

    如果您使用操作符SparseFormatExampleSource,将参数格式设置为no_label,并将参数维度设置为维度数(文件中出现的最高数字),那么它就可以工作。

    问候,
    塞巴斯蒂安。
  • guilhermecrguilhermecr 成员职位:4贡献我
    我从市场篮子开始,所以我一直在使用互联网上可用的数据集进行练习。
    我使用了可在http://fimi.cs.helsinki.fi/data/retail.dat,这是密集格式。

    但由于我将从朋友的商店获得我自己的数据,我的问题是:

    使用RM进行市场篮子分析的最佳格式是什么?


    谢谢

    PS:我可能会使用Apriori和FPGrowth。
登录注册置评。