文本预处理

Hyram · 2020年6月

大家好
我正试图对文本进行一些预处理，并在RapidMiner中寻找相关操作符，如果它们确实可用。
我是从一个句子中提取特征，使用信息增益算子。这似乎是可能的。从那里，我需要使用单词袋(BOW)和术语频率(TF)构建一个特征向量。我应该得到一个一元向量。我希望这个单元向量基于句子中每个术语的词性(POS)。

我正在寻找的运营商是:
1.弓;
2.特遣部队;
3.PoS标记。

这些在RapidMiner中可用，还是我在错误的操作符目录中查找?

谢谢

Pavithra_Rao · 2020年6月

嗨@Hyram，

文本处理扩展可以帮助您进行文本挖掘特征的提取和处理。

这里还有一些很好的资源来帮助您开始RM文本处理

https://academy.www.turtlecreekpls.com/learn/course/text-and-web-mining-with-rapidminer/text-and-web-mining/lets-get-started

//www.turtlecreekpls.com/resource/text-mining-document-classification/

//www.turtlecreekpls.com/resource/text-mining-document-classification/

欢呼,
Pavithra

Telcontar120 · 2020年6月

您需要从市场下载并安装免费的文本挖掘扩展。
操作符“Process Documents”将使用术语频率生成一个单词向量，如果您将其设置为参数中的选项(TF-IDF是默认值)，并且如果您在其中使用Tokenize操作符，它还将自动为您生成单词包，然后输出单词列表和示例集(取决于您想要的格式)。
还有一个“过滤令牌(按POS标签)”的操作符，但我不确定你是否能让它实际输出POS标签，或者你是否只能按标签过滤(在这种情况下，我猜你可以根据过滤的结果手动添加它们?但这似乎效率低下)。
@mschmitz有没有办法直接输出POS标签?

MartinLiebig · 2020年6月

@Hyram

我想这只能过滤，但我有段时间没用过了。也许wordnet扩展能帮上忙?

BR,

马丁

Telcontar120 · 2020年6月

是的，单词向量中的值对应于跨示例集计算的TF-IDF值。

Hyram · 2020年6月

感谢Telcontar120和Pavithra_Rao的协助!

Hyram · 2020年6月

嗨@mschmitz

布莱恩完美地回答了我的问题。唯一突出的问题是如何使用PoS标记。我可以反映标签还是只通过它们进行过滤?

谢谢

Hyram · 2020年6月

谢谢你！
我还有一个问题@mschmitz。如何从文本中删除标签和url ?我该用什么算子呢?替换吗?我看了之前关于这个的帖子，一个社区成员建议我看的教程已经不存在了。

谢谢

Telcontar120 · 2020年6月

是的，您应该能够使用Replace操作符使用一些创造性的正则表达式来摆脱标签和url。我不是一个正则表达式专家，所以有其他社区成员可能比我更能在这方面提供帮助。在这两种情况下，您可能都想要寻找一些模式(例如#符号或https://)，后面跟着一些任意数量的字符，然后是一个空格—并且您想要删除空格之前的所有内容。

Hyram · 2020年6月

@Telcontar120非常感谢你的帮助。我现在已经成功地使用TF.IDF生成了单词向量和示例集。我假设示例集中的值(分数)代表TF。IDF号码吗?

现在只需要对url进行排序。过滤器令牌使用'非字母'，似乎排序#但不是测试之后立即，正如你所建议的。至少现在我知道我需要查找正则表达式。

再次感谢!

Hyram · 2020年6月

@Telcontar120太棒了!谢谢你！

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

文本预处理

最好的答案

答案