基于难度的英语冠词分类
alaa_albarazi
成员职位:1学我
嗨,《欧洲共同语言参考框架》将语言难度分为A、B、C三个主要级别组,每个级别组有两个子级别。级别是(A1初级,A2初级.....C2掌握)。
我有成千上万的文档,我需要根据使用RabidMiner或Python的难度级别进行分组。其中一个概念是使用一份包含最常用口语单词的文档,看看一篇文章中的单词与最常见的1000个单词有多接近。但是这种方法忽略了语法上的困难。除了单词难度,我还需要为每篇文章添加词性标签,每个句子的长度,然后找到一种方法来考虑文章的容易或困难。如果有现成的库可以做到这一点,那就太好了。
在这方面有什么方案可以提供帮助?你有什么建议吗?
标记:
0
答案
如果您对python有点熟悉,我建议您使用NLTK工具包,这对于POS功能来说非常好(而且很快)
这篇文章展示了一个实际的实现:https://community.www.turtlecreekpls.com/t5/RapidMiner-Studio-Forum/Filter-Tokens-by-POS-Tags-slow/m-p/43192#M28838
嗨@alaa_albarazi,
我也会选择Python和NLTK@kayman建议。用于文本挖掘的RapidMiner扩展可以帮助您执行一些预处理,以便在使用Python后更容易地分析文档,然后您可以使用Python脚本扩展将两者连接起来。只要确保安装了Anaconda Python发行版,它已经包含了nltk和模式这对你有帮助。
愿一切都好!
罗德里戈。