使用字典删除停止词
最好的答案
-
kayman 成员职位:662独角兽乍一看,流程似乎是正确的,所以只是一些额外的问题
你是怎么做单词标记化的?如果这个是不正确的,你仍然可以把完整的句子作为标记
-转换成大写还是小写?因为你正在寻找“是”,我假设小写
-接下来你按长度过滤,因为'is'只包含2个字符,我假设你过滤所有至少2个字符。如果不是,“is”应该在这里被剥离,所以再次链接到你如何做你的单词标记化。
你的字典是怎么编的?每个停词在新行没有空格吗?当您使用NLTK列表时,它可能包含RM不喜欢使用的其他字符。
你也可以使用开箱即用的'filter stopwords (english)',据我所知,它与NLTK非常相似。5 -
kayman 成员职位:662独角兽是的,有时候这有点棘手。像“like”这样的词会对情感分析产生很大的影响,所以我个人不会把它当作一个通用的停用词。
我通常做的是把现成的停顿词和个人添加词结合起来。
无论如何,如果它在使用开箱即用选项时消失了,但仍然保留在NLTK文档中,那么使用的格式和读取方式确实可能存在问题。
最简单的方法是将其保存为简单的txt文件,而不是docx文件,这样可以确保没有遗漏或添加任何内容5
答案
附加
至于字典,我用的是NLTK长剑。不确定我的编码器设置是否正确?
1.我正在使用“非字母”来标记我的单词,它似乎有效。因此没有完整的句子;
2.对,我转换成小写;
3.正确-我按长度2过滤,即任何< 2的字符都将被淘汰
4.你说得对,因为我还没有检查过。我把它剪切粘贴到Word文档中
我最初使用的是“过滤停止词(英语)”,但它排除了像“喜欢”这样我想保留的词。
谢谢!
非常感谢你的帮助!将尝试操作符提示的内容与您所说的内容内联的文本格式。
你对文件格式的建议奏效了。谢谢你!