文本预处理
最好的答案
-
Pavithra_Rao 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,会员职位:123RM数据科学家嗨@Hyram,
文本处理扩展可以帮助您进行文本挖掘特征的提取和处理。
这里还有一些很好的资源来帮助您开始RM文本处理
https://academy.www.turtlecreekpls.com/learn/course/text-and-web-mining-with-rapidminer/text-and-web-mining/lets-get-started
//www.turtlecreekpls.com/resource/text-mining-document-classification/
//www.turtlecreekpls.com/resource/text-mining-document-classification/
欢呼,
Pavithra
1 -
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽您需要从市场下载并安装免费的文本挖掘扩展。
操作符“Process Documents”将使用术语频率生成一个单词向量,如果您将其设置为参数中的选项(TF-IDF是默认值),并且如果您在其中使用Tokenize操作符,它还将自动为您生成单词包,然后输出单词列表和示例集(取决于您想要的格式)。
还有一个“过滤令牌(按POS标签)”的操作符,但我不确定你是否能让它实际输出POS标签,或者你是否只能按标签过滤(在这种情况下,我猜你可以根据过滤的结果手动添加它们?但这似乎效率低下)。
@mschmitz有没有办法直接输出POS标签?1 -
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3360年RM数据科学家
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
答案
布莱恩完美地回答了我的问题。唯一突出的问题是如何使用PoS标记。我可以反映标签还是只通过它们进行过滤?
谢谢
我还有一个问题@mschmitz。如何从文本中删除标签和url ?我该用什么算子呢?替换吗?我看了之前关于这个的帖子,一个社区成员建议我看的教程已经不存在了。
谢谢
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
现在只需要对url进行排序。过滤器令牌使用'非字母',似乎排序#但不是测试之后立即,正如你所建议的。至少现在我知道我需要查找正则表达式。
再次感谢!