过滤器停止字操作符的问题

Mohamad1367Mohamad1367 成员职位:22贡献我
2020年5月编辑 帮助
嗨,我正在研究波斯语的情感分析项目,并在这种语言中安装了一些文本预处理目的的玫瑰花结扩展,如标记化。
我有一个问题与过滤器停止词(字典)操作符…当我将这个运算符应用于我的数据集(在标记化之后)时,我只收到标记化的数据集,而没有过滤停止词…这个问题的原因是什么?

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    为此,您需要在“Filter Stopwords (dictionary)”操作符的第二个输入端口中提供一个字典文件。它的工作方式是筛选出字典文件中的单词。由于您没有为它提供任何字典文件,因此它没有过滤任何内容。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    Pavithra_Rao
  • Mohamad1367Mohamad1367 成员职位:22贡献我
    2020年6月编辑
    谢谢你的回答@Telcontar120
    是否可以与我分享示例过程,以便我更好地理解它?非常感谢,亲爱的
    test.xlsx 28.3 k
  • Mohamad1367Mohamad1367 成员职位:22贡献我
    @Telcontar120我将打开文件操作符连接到停止词的文件输入,并将停止词字典附加到该操作符上,但它不起作用…这就是你之前评论的意思吗?

    procces.rmp 6.6 k
    test.xlsx 28.3 k
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    对不起,我不懂波斯语,所以我不能做很多数据文件。但是,是的,您应该能够使用打开文件操作符完成此操作。您也可以直接在Stopwords Dictionary操作符的参数中指定文件,其中有一个位置可以指定要使用的文件的路径。
    附带了一个简化的过程,您只需要交换文件路径和名称。

    <?xml version="1.0" encoding="UTF-8"?><进程版本="9.6.000">      <参数key="logverbosity" value="init"/> <参数key="random_seed" value="2001"/> <参数key="send_mail" value="never"/> <参数key="notification_email" value="30"/> <参数key="encoding" value="SYSTEM"/> <进程expanded="true">  <参数key="file" value="C:\Users\brian\Google Drive\RapidMiner\Training text Mining\SourceData\Room Service Reviews\ food_swissotel_chicago2 .gold.txt"/> <参数key="extract_text_only" value="true"/> <参数key="use_file_extension_as_type" value="true"/> <参数key="content_type" value="txt"/> <参数key="encoding" value="SYSTEM"/>                                              
    这应该足够让你开始了。当然,如果您愿意,还可以对文档的处理进行更多操作。


    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
登录注册置评。