看起来你是新来的。登录或注册开始。
你好,
附加的进程在FP-Growth节点上失败了,错误如下:
过程失败
例外:java.lang.StackOverflowError
8.2.0
同时也请查看附件中的流程。
嗨@hhassanien
能否将我在附件过程中使用的数据文件分享给大家?
此外,共享日志文件将有助于轻松调试问题…
工作室日志可以在以下网站找到:
C: \ <用户名> \ \用户。RapidMiner \
干杯
嗨@hhassanien-是的,这看起来是个问题。推送到产品反馈。
(编辑:@Pavithra_Rao我使用“面向大众的数据挖掘”pdf得到了同样的错误。它是连接。下面修改XML。)
<?xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>> <上下文<输入/ ><输出/ ><宏/ >> < /上下文<过程扩展= " true " ><参数键= "文件" value = " /用户/ GenzerConsulting /桌面/ DataMiningForTheMasses.pdf " / >< /操作符> .<过程扩展= " true " ><参数键= " max_length " value = " 4 " / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "版本" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = " aasher " / ><参数键= " regular_expression " value = "亚" / >< /操作符> . <参数键= "条件" value = " = " / ><参数键= "字符串" value = "文档" / >< /操作符> . <参数键= "条件" value = " = " / ><参数键= "字符串" value = " hyperone " / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "页面" / >< /操作符> . <参数键= "条件" value = " = " / ><参数键= "字符串" value = "过程" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "作者" / >< /操作符>< portSpacing端口= " source_document”间隔= " 0 " / > .> < /过程< /操作符> . > < /过程< /操作符>> < /过程
斯科特
嗨@hhassanien,
感谢分享数据和过程。您是否想使用FP-Growth算法来查找在某些文档中始终共存的关键字组?
这里只有5个文档,经过文本处理后,您将得到一个非常宽的表,5行,50k列。哇,那是10000倍!这将导致堆空间的问题,如此小的事务,但巨大的项目…对于单个文档中显示的所有关键字,B /c将在至少20%(1/5=0.2)支持度和100%置信度的规则中关联,这将导致针对50k个关键字的数百万条关联规则。
理想情况下,我们希望输入数据具有更多的交易(通常是> 200行交易),用于市场篮子分析(FP-G)。下面是文档分析的一些变通方法:
1.您可以添加更多的文档来增加示例的数量,并通过修剪关键字或筛选令牌来减少列的数量。我对文本挖掘过程做了一点修改,在语料库上增加了剪枝。在fp-growth中使用的二项数据集将维数降至5 × 400。它创造了1600万个频繁条目(关键词)。
警告:对于内存为32GB的笔记本电脑,下面的代码可能需要至少2分钟在减少的数据集上运行FP-Growth。如果您需要从FP-Growth的频繁项中创建关联规则,请在具有更多内存的服务器上运行它。
<?xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>> <上下文<输入/ ><输出/ ><宏/ >> < /上下文<过程扩展= " true " > . class="free_memory" compatibility="8.1.001<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ FICO.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ MM.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ SD.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ HCM.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ Integration.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符> .<参数键= " add_meta_information " value = " false " / ><参数键= " prune_method " value = "绝对" / ><参数键= " prune_below_absolute " value = " 3 " / ><参数键= " prune_above_absolute " value = " 5 " / ><过程扩展= " true " ><参数键= "条件" value = " = " / ><参数键= "字符串" value = "版本" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = " aasher " / ><参数键= " regular_expression " value = "亚" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "文档" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = " hyperone " / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "页面" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "过程" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "作者" / >< /操作符><参数键= " max_length " value = " 3 " / >< /操作符>< portSpacing端口= " source_document”间隔= " 0 " / > .> < /过程< /操作符><参数键= " find_min_number_of_itemsets " value = " false " / ><参数键= " max_number_of_retries " value = " 10 " / ><参数键= " min_support " value = " 0.9 " / >< /操作符> . < /操作符> .> < /过程< /操作符>> < /过程
2.对文档术语矩阵进行转置,得到一个有5列的新数据矩阵,然后就可以使用基于对的词-词距离来查找具有高度相似性的词组。
<?xml version = " 1.0 " encoding = " utf - 8 " ?> <过程version = " 8.1.001”>> <上下文<输入/ ><输出/ ><宏/ >> < /上下文<过程扩展= " true " > . class="free_memory" compatibility="8.1.001<参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ FICO.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ MM.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ SD.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ HCM.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符><参数键= "文件" value = " C: \ \ YuanyuanHuang \用户文档\ RMCommunity \ Integration.pdf " / ><参数键= " content_type " value = " pdf " / >< /操作符> .<参数键= " add_meta_information " value = " false " / ><参数键= " prune_below_absolute " value = " 3 " / ><参数键= " prune_above_absolute " value = " 5 " / ><过程扩展= " true " ><参数键= " min_chars " value = " 3 " / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "版本" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = " aasher " / ><参数键= " regular_expression " value = "亚" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "文档" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = " hyperone " / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "页面" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "过程" / >< /操作符><参数键= "条件" value = " = " / ><参数键= "字符串" value = "作者" / >< /操作符><参数键= " max_length " value = " 4 " / >< /操作符>< portSpacing端口= " source_document”间隔= " 0 " / > .> < /过程< /操作符> . <参数键= " attribute_name " value = "距离" / ><参数键= " sorting_direction " value = "减" / >< /操作符>/> . . > < /过程< /操作符>> < /过程
3.在文档上运行word2vec(可在word2vec扩展从marketplace获得),用深度学习神经网络提取词汇及其上下文。
请查看Martin Schmitz博士的知识库文章
https://community.www.turtlecreekpls.com/t5/RapidMiner-Studio-Knowledge-Base/Synonym-Detection-with-Word2Vec/ta-p/43860
欢呼,
YY
哇,谢谢@Pavithra_Rao如此详细和有帮助的回复!
不幸的是,我们将拒绝解决这个问题。两个原因:1)as@Pavithra_Rao有一个很好的解决办法,事实上她所展示的可能是最佳实践;2) FP-Growth运营商正在从头开始重建。
我们将在下一个版本8.2中有一个改进的FP-Growth操作符
使用新的数据核心实现,速度会快得多,而且与事务性数据兼容
TransactionID item1 |第二条| item3 | item4
荣誉,@gmeier!
评论
同时也请查看附件中的流程。
嗨@hhassanien
能否将我在附件过程中使用的数据文件分享给大家?
此外,共享日志文件将有助于轻松调试问题…
工作室日志可以在以下网站找到:
C: \ <用户名> \ \用户。RapidMiner \
干杯
嗨@hhassanien-是的,这看起来是个问题。推送到产品反馈。
(编辑:@Pavithra_Rao我使用“面向大众的数据挖掘”pdf得到了同样的错误。它是连接。下面修改XML。)
斯科特
嗨@hhassanien,
感谢分享数据和过程。您是否想使用FP-Growth算法来查找在某些文档中始终共存的关键字组?
这里只有5个文档,经过文本处理后,您将得到一个非常宽的表,5行,50k列。哇,那是10000倍!这将导致堆空间的问题,如此小的事务,但巨大的项目…对于单个文档中显示的所有关键字,B /c将在至少20%(1/5=0.2)支持度和100%置信度的规则中关联,这将导致针对50k个关键字的数百万条关联规则。
理想情况下,我们希望输入数据具有更多的交易(通常是> 200行交易),用于市场篮子分析(FP-G)。下面是文档分析的一些变通方法:
1.您可以添加更多的文档来增加示例的数量,并通过修剪关键字或筛选令牌来减少列的数量。我对文本挖掘过程做了一点修改,在语料库上增加了剪枝。在fp-growth中使用的二项数据集将维数降至5 × 400。它创造了1600万个频繁条目(关键词)。
警告:对于内存为32GB的笔记本电脑,下面的代码可能需要至少2分钟在减少的数据集上运行FP-Growth。如果您需要从FP-Growth的频繁项中创建关联规则,请在具有更多内存的服务器上运行它。
2.对文档术语矩阵进行转置,得到一个有5列的新数据矩阵,然后就可以使用基于对的词-词距离来查找具有高度相似性的词组。
3.在文档上运行word2vec(可在word2vec扩展从marketplace获得),用深度学习神经网络提取词汇及其上下文。
请查看Martin Schmitz博士的知识库文章
https://community.www.turtlecreekpls.com/t5/RapidMiner-Studio-Knowledge-Base/Synonym-Detection-with-Word2Vec/ta-p/43860
欢呼,
YY
哇,谢谢@Pavithra_Rao如此详细和有帮助的回复!
不幸的是,我们将拒绝解决这个问题。两个原因:1)as@Pavithra_Rao有一个很好的解决办法,事实上她所展示的可能是最佳实践;2) FP-Growth运营商正在从头开始重建。
我们将在下一个版本8.2中有一个改进的FP-Growth操作符
使用新的数据核心实现,速度会快得多,而且与事务性数据兼容
TransactionID item1 |第二条| item3 | item4
荣誉,@gmeier!