不能使用正则表达式按内容过滤令牌(句子)

KateShKateSh 成员职位:2新手
2021年9月编辑 帮助
大家好!
我是文本挖掘的新手。一个非常简单的任务对我来说是一个无法解决的任务:(

我有50个英文pdf文档。从那里,我需要提取包含至少一个情态动词的句子(用于进一步分析)。
在“从文件处理文档”操作符中,我创建了“标记化”(语言句子)和“按内容过滤标记”操作符。在“按内容筛选令牌”中,我将动词用竖线分隔,没有空格,但它不起作用,结果是空的。如果我只写一个动词,效果很好,但如果我用竖线写很多动词,效果就不好了。我试了所有的操作条件,没有一个能成功。
我将非常感激你的帮助!
下面是我的过程:

< ?xml version="1.0" encoding="UTF-8" standalone="no"?>
<过程version = " 5.3.015 " >
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= " text_directories " >
<参数键=“pdf”值= " D: \Все\УЧЁБА\ВКР\Материал\Оригинальные" / >
< / >列表
<过程扩展= " true " >
< /操作符>
< /操作符>
> < /过程
< /操作符>
> < /过程
< /操作符>
> < /过程


最好的答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1194年独角兽
    解决方案接受
    @KateSh

    您是否尝试使用参数“contains”而不是“matches”?

    问候,

    莱昂内尔
  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1194年独角兽
    解决方案接受
    你好,再一次@KateSh

    否则,你有没有试过使用示例集过滤令牌操作员:查看这个过程的教程

    问候,

    莱昂内尔

答案

  • KateShKateSh 成员职位:2新手
    非常感谢你,这很有帮助!
    (对不起,我昨天太忙了,没有早点回复。)
    lionelderkrikor
登录注册置评。