“FP-Growth过程失败”

hhassanienhhassanien 成员职位:2贡献我
2019年6月编辑 产品反馈-解决

你好,

附加的进程在FP-Growth节点上失败了,错误如下:

过程失败

例外:java.lang.StackOverflowError

bug.PNG 217 k
FICO.pdf 230.9 k
HCM.pdf 301.1 k
Integration.pdf 673.4 k
MM.pdf 1008.9 k
SD.pdf 301.1 k
Pavithra_Rao
1
1票

固定和释放·最后一次更新

8.2.0

评论

  • hhassanienhhassanien 成员职位:2贡献我

    同时也请查看附件中的流程。

  • Pavithra_RaoPavithra_Rao 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:123RM数据科学家

    @hhassanien

    能否将我在附件过程中使用的数据文件分享给大家?

    此外,共享日志文件将有助于轻松调试问题…

    工作室日志可以在以下网站找到:

    C: \ <用户名> \ \用户。RapidMiner \

    干杯

  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区管理员,会员,大学教授,PM版主职位:2959年社区经理

    @hhassanien-是的,这看起来是个问题。推送到产品反馈。

    (编辑:@Pavithra_Rao我使用“面向大众的数据挖掘”pdf得到了同样的错误。它是连接。下面修改XML。)

    <?xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >

    <参数键= "文件" value = " /用户/ GenzerConsulting /桌面/ DataMiningForTheMasses.pdf " / >
    < /操作符>

    .
    <过程扩展= " true " >





    <参数键= " max_length " value = " 4 " / >
    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "版本" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = " aasher " / >
    <参数键= " regular_expression " value = "亚" / >

    < /操作符>
    . <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "文档" / >

    < /操作符>
    . <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = " hyperone " / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "页面" / >

    < /操作符>
    . <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "过程" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "作者" / >

    < /操作符>













    < portSpacing端口= " source_document”间隔= " 0 " / >

    .
    > < /过程
    < /操作符>
    .









    > < /过程
    < /操作符>
    > < /过程


    斯科特

  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区管理员,会员,大学教授,PM版主职位:2959年社区经理
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家

    @hhassanien

    感谢分享数据和过程。您是否想使用FP-Growth算法来查找在某些文档中始终共存的关键字组?

    这里只有5个文档,经过文本处理后,您将得到一个非常宽的表,5行,50k列。哇,那是10000倍!这将导致堆空间的问题,如此小的事务,但巨大的项目…对于单个文档中显示的所有关键字,B /c将在至少20%(1/5=0.2)支持度和100%置信度的规则中关联,这将导致针对50k个关键字的数百万条关联规则。

    理想情况下,我们希望输入数据具有更多的交易(通常是> 200行交易),用于市场篮子分析(FP-G)。下面是文档分析的一些变通方法:

    1.您可以添加更多的文档来增加示例的数量,并通过修剪关键字或筛选令牌来减少列的数量。我对文本挖掘过程做了一点修改,在语料库上增加了剪枝。在fp-growth中使用的二项数据集将维数降至5 × 400。它创造了1600万个频繁条目(关键词)。

    freq-items.PNG

    警告:对于内存为32GB的笔记本电脑,下面的代码可能需要至少2分钟在减少的数据集上运行FP-Growth。如果您需要从FP-Growth的频繁项中创建关联规则,请在具有更多内存的服务器上运行它。

    <?xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >
    . class="free_memory" compatibility="8.1.001

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ FICO.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ MM.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ SD.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ HCM.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ Integration.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    .
    <参数键= " add_meta_information " value = " false " / >
    <参数键= " prune_method " value = "绝对" / >
    <参数键= " prune_below_absolute " value = " 3 " / >
    <参数键= " prune_above_absolute " value = " 5 " / >
    <过程扩展= " true " >






    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "版本" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = " aasher " / >
    <参数键= " regular_expression " value = "亚" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "文档" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = " hyperone " / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "页面" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "过程" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "作者" / >

    < /操作符>

    <参数键= " max_length " value = " 3 " / >
    < /操作符>












    < portSpacing端口= " source_document”间隔= " 0 " / >

    .
    > < /过程

    < /操作符>


    <参数键= " find_min_number_of_itemsets " value = " false " / >
    <参数键= " max_number_of_retries " value = " 10 " / >
    <参数键= " min_support " value = " 0.9 " / >
    < /操作符>
    .
    < /操作符>







    .






    > < /过程
    < /操作符>
    > < /过程

    2.对文档术语矩阵进行转置,得到一个有5列的新数据矩阵,然后就可以使用基于对的词-词距离来查找具有高度相似性的词组。

    similarity-results.PNG

    <?xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >
    . class="free_memory" compatibility="8.1.001

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ FICO.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ MM.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ SD.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ HCM.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    <参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ Integration.pdf " / >
    <参数键= " content_type " value = " pdf " / >
    < /操作符>

    .
    <参数键= " add_meta_information " value = " false " / >
    <参数键= " prune_below_absolute " value = " 3 " / >
    <参数键= " prune_above_absolute " value = " 5 " / >
    <过程扩展= " true " >





    <参数键= " min_chars " value = " 3 " / >
    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "版本" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = " aasher " / >
    <参数键= " regular_expression " value = "亚" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "文档" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = " hyperone " / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "页面" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "过程" / >

    < /操作符>

    <参数键= "条件" value = " = " / >
    <参数键= "字符串" value = "作者" / >

    < /操作符>

    <参数键= " max_length " value = " 4 " / >
    < /操作符>












    < portSpacing端口= " source_document”间隔= " 0 " / >

    .
    > < /过程

    < /操作符>


    .
    <参数键= " attribute_name " value = "距离" / >
    <参数键= " sorting_direction " value = "减" / >
    < /操作符>









    /> . .



    > < /过程
    < /操作符>
    > < /过程

    3.在文档上运行word2vec(可在word2vec扩展从marketplace获得),用深度学习神经网络提取词汇及其上下文。

    请查看Martin Schmitz博士的知识库文章

    https://community.www.turtlecreekpls.com/t5/RapidMiner-Studio-Knowledge-Base/Synonym-Detection-with-Word2Vec/ta-p/43860

    欢呼,

    YY

  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区管理员,会员,大学教授,PM版主职位:2959年社区经理

    哇,谢谢@Pavithra_Rao如此详细和有帮助的回复!

  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区管理员,会员,大学教授,PM版主职位:2959年社区经理

    不幸的是,我们将拒绝解决这个问题。两个原因:1)as@Pavithra_Rao有一个很好的解决办法,事实上她所展示的可能是最佳实践;2) FP-Growth运营商正在从头开始重建。:)

  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家

    我们将在下一个版本8.2中有一个改进的FP-Growth操作符

    使用新的数据核心实现,速度会快得多,而且与事务性数据兼容

    TransactionID item1 |第二条| item3 | item4

    荣誉,@gmeier

登录注册置评。