词性(POS)过滤

HyramHyram 成员职位:39因素二世
2020年6月编辑 帮助
嗨。

我已经标记了一些文本,现在正试图删除POS,使用POS操作员的过滤器。我用过以下表达式:N.*|VB.*|RB.*|JJ.*|MD.*|PP。*试图保留名词、形容词、动词和副词。问题是,作为一个例子,名词和动词被过滤掉了,例如,“need”这个词不再出现在我的文本中。
我做错了什么,我是否有正确的表达我想要保留的POS令牌(名词,形容词,动词和副词)?

谢谢,
Hyram
标记:

最好的答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受
    您似乎知道,您需要使用PENN POS标签,可以在这里使用:
    https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
    在我看来,你的表情不像是有什么明显的问题。
    @kayman你能检查一下,看看是否有什么地方不对吗?
    此外,您可以尝试一次做一个选择,看看是否有一个问题与复合表达式?
    或者尝试过滤掉特定的标签,而不是只保留某些标签?
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    Hyram
  • kaymankayman 成员职位:662独角兽
    解决方案接受
    @Hyram@Telcontar120

    乍一看似乎没问题。
    正如Brian建议的那样,尝试在没有过滤器的情况下做同样的事情(或逐一过滤),这样您就可以了解RM给“需要”的标签。POS标签对单词位置等敏感,因此根据字符串相同的单词可以得到不同的标签。

    例如,Need既可以是动词,也可以是名词,但既然你捕获了这两个词,那么从一开始就不应该有问题。
    你不会不小心选择了反向选项吧?
    Hyram

答案

  • HyramHyram 成员职位:39因素二世
    非常感谢@Telcontar120@kayman。我将按你的建议试试。我没有错误地选择逆。后来我还发现,有些词在我用来做停词的字典里,因此有些词被相应地过滤掉了。
登录注册置评。