使用Rapidminer计算词频

bhupendra_patil · 2016年6月

本文讨论了一个在非结构化文本挖掘中查找词频的示例过程。

构建这样的流程所需的基本操作符是

请参见“基本词频”。Rmp”文件附在本文中，以查看工作示例

您的过程看起来像

basicprocess setup.png

在流程内部，来自数据的文档看起来像

它的输出是这样的。(请注意，对于完全相同的过程，您的单词可能会出现不同，因为它实际上是获取twitter数据。词频或WordList输出通过“从数据中处理文档”操作符的“word”端口传递。

总发生次数-告诉你这个词在所有例子中出现了多少次。

文档事件-告诉您该单词在单个文档中出现的次数。

正如您将在输出中注意到的那样，有几个不需要的单词，或者由于大小写不同而将相同的单词处理为两个不同的单词，或者存在您不关心的常见英语单词或您可能不感兴趣的某些特定单词。然后，可以通过丰富“从数据处理文档”中采取的步骤来处理所有这些情况。改进后的“来自数据的过程文件”子过程可能如下所示

改进词频。png

下面是使用这些操作符的原因

杰森 · 2016年11月

这个方法很有帮助。你能告诉我如何过滤事件的总数吗?

例如:我想删除文档中只出现一次的单词和短语。(或两次，或十次)所以我只在我的列表中得到高频单词。这将极大地有助于拥有一个更易于管理的示例列表。

谢谢!

MartinLiebig · 2016年11月

亲爱的杰森,

这叫做修剪。如果您查看Process Documents操作符的选项，您可以看到一些方法。

最好的

马丁

jesus_martinez_ · 2017年3月

非常有帮助，解释得很好。

我想知道我是否也可以获得多词出现。也就是说，如果“超级”这个词总是跟在“碗”后面，我也想在我的列表中获得“超级碗”这个词的出现次数。在我的数据中经常重复的其他常见表达也是如此，例如“nice job”或“well done”。

提前感谢。

MartinLiebig · 2017年3月

亲爱的耶稣,

这叫做n-gram。如果你在变换后加上n元运算符你也会得到这些组合。长度为2的组合称为2g，用_分隔。

最好的

马丁

成品 · 2017年5月

你好,

我目前正在使用Rapidminer Studio的免费版本进行研究项目，并试图复制此过程。我的问题是，当我搜索“从数据处理文档”操作符时，没有结果。我想知道我是否需要更新Rapidminer或购买这个特定的运营商。请尽快让我知道

bernardo_pagnon · 2020年3月

查看扩展/市场/热门下载，然后安装文本处理扩展。

最好的
贝尔纳多

快速链接