用正则表达式过滤停止词

Anna_May1Anna_May1 成员职位:14学我
嗨,伙计们,

我目前正在与Knn一起在Rapidminer中进行情感分析。我想计算删除停止词时文档中剩下的字数。在“从数据操作符处理文档”中使用“Filter stopwords”操作符只有在我标记数据并首先使用“Nominal to Text”操作符时才有效。这里的问题是输出结果如下图所示。我想能够计数删除停止词后留下的单词,所以我想知道是否有一个正则表达式,可以在“替换”操作符内使用,只删除停止词而不标记它。

干杯!

答案

  • jacobcybulskijacobcybulski 委员,大学教授职位:391独角兽
    @Anna_May1由于你没有附上图片,我无法看到图片。然而,在标记文本之后,处理停顿词或数单词会容易得多。例如,您可以有两个文本处理流,一个带有and,一个没有停顿词,然后您可以为两者计算标记并找到差异。事实上,当您的文本表示是根据频率时,计数非常简单——在列中添加这些频率。
登录注册置评。