基于难度的英语冠词分类

alaa_albarazi · 2018年10月

嗨，《欧洲共同语言参考框架》将语言难度分为A、B、C三个主要级别组，每个级别组有两个子级别。级别是(A1初级，A2初级.....C2掌握)。

我有成千上万的文档，我需要根据使用RabidMiner或Python的难度级别进行分组。其中一个概念是使用一份包含最常用口语单词的文档，看看一篇文章中的单词与最常见的1000个单词有多接近。但是这种方法忽略了语法上的困难。除了单词难度，我还需要为每篇文章添加词性标签，每个句子的长度，然后找到一种方法来考虑文章的容易或困难。如果有现成的库可以做到这一点，那就太好了。

在这方面有什么方案可以提供帮助?你有什么建议吗?

kayman · 2018年10月

如果您对python有点熟悉，我建议您使用NLTK工具包，这对于POS功能来说非常好(而且很快)

这篇文章展示了一个实际的实现:https://community.www.turtlecreekpls.com/t5/RapidMiner-Studio-Forum/Filter-Tokens-by-POS-Tags-slow/m-p/43192#M28838

rfuentealba · 2018年10月

嗨@alaa_albarazi，

我也会选择Python和NLTK@kayman建议。用于文本挖掘的RapidMiner扩展可以帮助您执行一些预处理，以便在使用Python后更容易地分析文档，然后您可以使用Python脚本扩展将两者连接起来。只要确保安装了Anaconda Python发行版，它已经包含了nltk和模式这对你有帮助。

愿一切都好！

罗德里戈。

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

基于难度的英语冠词分类

答案