使用字典删除停止词

HyramHyram 成员职位:39因素二世
2020年6月编辑 帮助

我正在用我自己的字典删除停顿词。仔细分析,像“is”这样的词并没有被删除,尽管它们在字典中。知道为什么会这样吗?
谢谢,
Hyram

最好的答案

答案

  • kaymankayman 成员职位:662独角兽
    你能分享一下你的过程吗?不需要添加数据,只需要过程本身。
    Hyram
  • HyramHyram 成员职位:39因素二世
    2020年6月编辑
    好的,谢谢@kayman
    附加

    至于字典,我用的是NLTK长剑。不确定我的编码器设置是否正确?
  • HyramHyram 成员职位:39因素二世
    @kayman谢谢你的关注。对你的问题的一些回答:
    1.我正在使用“非字母”来标记我的单词,它似乎有效。因此没有完整的句子;
    2.对,我转换成小写;
    3.正确-我按长度2过滤,即任何< 2的字符都将被淘汰
    4.你说得对,因为我还没有检查过。我把它剪切粘贴到Word文档中

    我最初使用的是“过滤停止词(英语)”,但它排除了像“喜欢”这样我想保留的词。
    谢谢!
  • HyramHyram 成员职位:39因素二世
    谢谢@kayman
    非常感谢你的帮助!将尝试操作符提示的内容与您所说的内容内联的文本格式。
  • HyramHyram 成员职位:39因素二世
    @kayman
    你对文件格式的建议奏效了。谢谢你!
    kayman
登录注册置评。