文本预处理

HyramHyram 成员职位:39因素二世
2020年6月编辑 帮助
大家好
我正试图对文本进行一些预处理,并在RapidMiner中寻找相关操作符,如果它们确实可用。
我是从一个句子中提取特征,使用信息增益算子。这似乎是可能的。从那里,我需要使用单词袋(BOW)和术语频率(TF)构建一个特征向量。我应该得到一个一元向量。我希望这个单元向量基于句子中每个术语的词性(POS)。

我正在寻找的运营商是:
1.弓;
2.特遣部队;
3.PoS标记。

这些在RapidMiner中可用,还是我在错误的操作符目录中查找?

谢谢

最好的答案

  • Pavithra_RaoPavithra_Rao 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,会员职位:123RM数据科学家
    解决方案接受
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受
    您需要从市场下载并安装免费的文本挖掘扩展。
    操作符“Process Documents”将使用术语频率生成一个单词向量,如果您将其设置为参数中的选项(TF-IDF是默认值),并且如果您在其中使用Tokenize操作符,它还将自动为您生成单词包,然后输出单词列表和示例集(取决于您想要的格式)。
    还有一个“过滤令牌(按POS标签)”的操作符,但我不确定你是否能让它实际输出POS标签,或者你是否只能按标签过滤(在这种情况下,我猜你可以根据过滤的结果手动添加它们?但这似乎效率低下)。
    @mschmitz有没有办法直接输出POS标签?
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    Hyram
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受
    是的,单词向量中的值对应于跨示例集计算的TF-IDF值。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    Hyram

答案

  • HyramHyram 成员职位:39因素二世
    感谢Telcontar120和Pavithra_Rao的协助!
  • HyramHyram 成员职位:39因素二世
    @mschmitz

    布莱恩完美地回答了我的问题。唯一突出的问题是如何使用PoS标记。我可以反映标签还是只通过它们进行过滤?

    谢谢
  • HyramHyram 成员职位:39因素二世
    谢谢你!
    我还有一个问题@mschmitz。如何从文本中删除标签和url ?我该用什么算子呢?替换吗?我看了之前关于这个的帖子,一个社区成员建议我看的教程已经不存在了。

    谢谢
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    是的,您应该能够使用Replace操作符使用一些创造性的正则表达式来摆脱标签和url。我不是一个正则表达式专家,所以有其他社区成员可能比我更能在这方面提供帮助。在这两种情况下,您可能都想要寻找一些模式(例如#符号或https://),后面跟着一些任意数量的字符,然后是一个空格—并且您想要删除空格之前的所有内容。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    Hyram
  • HyramHyram 成员职位:39因素二世
    @Telcontar120非常感谢你的帮助。我现在已经成功地使用TF.IDF生成了单词向量和示例集。我假设示例集中的值(分数)代表TF。IDF号码吗?

    现在只需要对url进行排序。过滤器令牌使用'非字母',似乎排序#但不是测试之后立即,正如你所建议的。至少现在我知道我需要查找正则表达式。

    再次感谢!
  • HyramHyram 成员职位:39因素二世
    @Telcontar120太棒了!谢谢你!
登录注册置评。