“FP-Growth过程失败”

hhassanien · 2018年3月

你好,

附加的进程在FP-Growth节点上失败了，错误如下:

过程失败

例外:java.lang.StackOverflowError

hhassanien · 2018年3月

同时也请查看附件中的流程。

Pavithra_Rao · 2018年3月

嗨@hhassanien

能否将我在附件过程中使用的数据文件分享给大家?

此外，共享日志文件将有助于轻松调试问题…

工作室日志可以在以下网站找到:

C: \ <用户名> \ \用户。RapidMiner \

干杯

sgenzer · 2018年3月

嗨@hhassanien-是的，这看起来是个问题。推送到产品反馈。

(编辑:@Pavithra_Rao我使用“面向大众的数据挖掘”pdf得到了同样的错误。它是连接。下面修改XML。)

<？xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >

<参数键= "文件" value = " /用户/ GenzerConsulting /桌面/ DataMiningForTheMasses.pdf " / >
< /操作符>

 .
<过程扩展= " true " >





<参数键= " max_length " value = " 4 " / >
< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "版本" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = " aasher " / >
<参数键= " regular_expression " value = "亚" / >

< /操作符>
 . <参数键= "条件" value = " = " / >
<参数键= "字符串" value = "文档" / >

< /操作符>
 . <参数键= "条件" value = " = " / >
<参数键= "字符串" value = " hyperone " / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "页面" / >

< /操作符>
 . <参数键= "条件" value = " = " / >
<参数键= "字符串" value = "过程" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "作者" / >

< /操作符>













< portSpacing端口= " source_document”间隔= " 0 " / >

 .
> < /过程
< /操作符>
 . 









> < /过程
< /操作符>
> < /过程

斯科特

sgenzer · 2018年3月

yyhuang · 2018年3月

嗨@hhassanien，

感谢分享数据和过程。您是否想使用FP-Growth算法来查找在某些文档中始终共存的关键字组?

这里只有5个文档，经过文本处理后，您将得到一个非常宽的表，5行，50k列。哇，那是10000倍!这将导致堆空间的问题，如此小的事务，但巨大的项目…对于单个文档中显示的所有关键字，B /c将在至少20%(1/5=0.2)支持度和100%置信度的规则中关联，这将导致针对50k个关键字的数百万条关联规则。

理想情况下，我们希望输入数据具有更多的交易(通常是> 200行交易)，用于市场篮子分析(FP-G)。下面是文档分析的一些变通方法:

1.您可以添加更多的文档来增加示例的数量，并通过修剪关键字或筛选令牌来减少列的数量。我对文本挖掘过程做了一点修改，在语料库上增加了剪枝。在fp-growth中使用的二项数据集将维数降至5 × 400。它创造了1600万个频繁条目(关键词)。

警告:对于内存为32GB的笔记本电脑，下面的代码可能需要至少2分钟在减少的数据集上运行FP-Growth。如果您需要从FP-Growth的频繁项中创建关联规则，请在具有更多内存的服务器上运行它。

<？xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >
 . class="free_memory" compatibility="8.1.001

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ FICO.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ MM.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ SD.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ HCM.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ Integration.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

 .
<参数键= " add_meta_information " value = " false " / >
<参数键= " prune_method " value = "绝对" / >
<参数键= " prune_below_absolute " value = " 3 " / >
<参数键= " prune_above_absolute " value = " 5 " / >
<过程扩展= " true " >






<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "版本" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = " aasher " / >
<参数键= " regular_expression " value = "亚" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "文档" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = " hyperone " / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "页面" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "过程" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "作者" / >

< /操作符>

<参数键= " max_length " value = " 3 " / >
< /操作符>












< portSpacing端口= " source_document”间隔= " 0 " / >

 .
> < /过程

< /操作符>


<参数键= " find_min_number_of_itemsets " value = " false " / >
<参数键= " max_number_of_retries " value = " 10 " / >
<参数键= " min_support " value = " 0.9 " / >
< /操作符>
 . 
< /操作符>







 .






> < /过程
< /操作符>
> < /过程

2.对文档术语矩阵进行转置，得到一个有5列的新数据矩阵，然后就可以使用基于对的词-词距离来查找具有高度相似性的词组。

<？xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >
 . class="free_memory" compatibility="8.1.001

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ FICO.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ MM.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ SD.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ HCM.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ Integration.pdf " / >
<参数键= " content_type " value = " pdf " / >
< /操作符>

 .
<参数键= " add_meta_information " value = " false " / >
<参数键= " prune_below_absolute " value = " 3 " / >
<参数键= " prune_above_absolute " value = " 5 " / >
<过程扩展= " true " >





<参数键= " min_chars " value = " 3 " / >
< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "版本" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = " aasher " / >
<参数键= " regular_expression " value = "亚" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "文档" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = " hyperone " / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "页面" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "过程" / >

< /操作符>

<参数键= "条件" value = " = " / >
<参数键= "字符串" value = "作者" / >

< /操作符>

<参数键= " max_length " value = " 4 " / >
< /操作符>












< portSpacing端口= " source_document”间隔= " 0 " / >

 .
> < /过程

< /操作符>


 . 
<参数键= " attribute_name " value = "距离" / >
<参数键= " sorting_direction " value = "减" / >
< /操作符>









/> .  . 



> < /过程
< /操作符>
> < /过程

3.在文档上运行word2vec(可在word2vec扩展从marketplace获得)，用深度学习神经网络提取词汇及其上下文。

请查看Martin Schmitz博士的知识库文章

https://community.www.turtlecreekpls.com/t5/RapidMiner-Studio-Knowledge-Base/Synonym-Detection-with-Word2Vec/ta-p/43860

欢呼,

YY

sgenzer · 2018年3月

哇，谢谢@Pavithra_Rao如此详细和有帮助的回复!

sgenzer · 2018年3月

不幸的是，我们将拒绝解决这个问题。两个原因:1)as@Pavithra_Rao有一个很好的解决办法，事实上她所展示的可能是最佳实践;2) FP-Growth运营商正在从头开始重建。

yyhuang · 2018年3月

我们将在下一个版本8.2中有一个改进的FP-Growth操作符

使用新的数据核心实现，速度会快得多，而且与事务性数据兼容

TransactionID item1 |第二条| item3 | item4

荣誉,@gmeier！

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习的最佳实践。与同事建立联系。

“FP-Growth过程失败”

固定和释放·最后一次更新2019年3月

评论