基于Wordnet词典的情感分析

bhupendra_patilbhupendra_patil 管理员、员工、会员职位:168RM数据科学家
2018年11月编辑 知识库

Rapidminer文本挖掘功能为情感分析提供了几种方法。在处理英文文本时,常用的一种方法是使用wordnet词典和Rapidminer wordnet词典中的相关运算符。本文概述了如何使用Rapidminer和Wordnet Dictionary进行情感分析。

先决条件

您将需要下载和安装从“Wordnet扩展”在这里

您还需要从“文本处理”扩展在这里

您需要从在这里

wordnet字典的设置步骤

wordnet字典文件的扩展名为“gz”。您将需要使用实用程序,如7Zip提取它。一旦你有了“WordNet-3.0.tar”文件,你将使用相同的7Zip工具进一步解压缩它。然后你应该有一个名为“Wordnet-3.0”的文件夹,里面有dict、doc、include等文件夹。

一旦你完成了这些,你就应该准备好用Rapidminer和使用Wordnet字典来构建一个文本挖掘过程。

在下面的屏幕截图中,我们正在搜索twitter,然后更改我们想要用于“文本处理”的列的数据类型,然后将数据集(Exampleset)传递给“从数据中处理文档”。你可以用你选择的任何数据源,如数据库,excel文件等来代替搜索twitter步骤。如果您想利用文件夹中的文件,您还可以使用“从文件中处理文档”,或者在电子邮件的情况下使用“从邮件存储中处理文档”操作符

Wordnet情感分析。png

然后双击“从数据处理文档”操作符来构建您的文本处理步骤。您将添加标准的文本处理步骤,如标记化,转换大小写,过滤停止词,过滤标记等基于您的特定需求。然后你需要得到情感得分的两个操作符是“打开WordNet词典”和“提取情感(英语)”,两者都来自WordNet扩展。

配置“打开Wordnet字典”操作符

在“资源类型”参数中选择directory,然后配置directory参数指向....\WordNet-3.0\dict文件夹

processdocumentdetails.png

请使用“提取情感(字典)”操作符提供的额外帮助来理解各种参数。

您还可以使用wordnet操作符进行同义词、hyoymms、Hyponyms,以改进您的过程。

这个过程添加了一个新列“sentiment”,为sentiment提供一个数值,消极情绪的得分小于0,积极情绪的得分大于0。

人们可以使用情感得分和“生成属性”操作符根据实际得分本身将文档标记为积极,中立,消极等

有关完整的示例,请参阅附带的过程。

您可以在RapidMiner Studio中使用文件(菜单)>>导入进程打开该进程。

Thomas_Ott evelyne_tran_1

评论

  • 洁 成员职位:2贡献我

    面对以下问题…如果有人能解决这个问题,那就太好了


    @bhupendra_patil写道:

    Rapidminer文本挖掘功能为情感分析提供了几种方法。在处理英文文本时,常用的一种方法是使用wordnet词典和Rapidminer wordnet词典中的相关运算符。本文概述了如何使用Rapidminer和Wordnet Dictionary进行情感分析。

    先决条件

    您将需要下载和安装从“Wordnet扩展”在这里

    您还需要从“文本处理”扩展在这里

    您需要从在这里

    wordnet字典的设置步骤

    wordnet字典文件的扩展名为“gz”。您将需要使用实用程序,如7Zip提取它。一旦你有了“WordNet-3.0.tar”文件,你将使用相同的7Zip工具进一步解压缩它。然后你应该有一个名为“Wordnet-3.0”的文件夹,里面有dict、doc、include等文件夹。

    一旦你完成了这些,你就应该准备好用Rapidminer和使用Wordnet字典来构建一个文本挖掘过程。

    在下面的屏幕截图中,我们正在搜索twitter,然后更改我们想要用于“文本处理”的列的数据类型,然后将数据集(Exampleset)传递给“从数据中处理文档”。你可以用你选择的任何数据源,如数据库,excel文件等来代替搜索twitter步骤。如果您想利用文件夹中的文件,您还可以使用“从文件中处理文档”,或者在电子邮件的情况下使用“从邮件存储中处理文档”操作符

    Wordnet情感分析。png

    然后双击“从数据处理文档”操作符来构建您的文本处理步骤。您将添加标准的文本处理步骤,如标记化,转换大小写,过滤停止词,过滤标记等基于您的特定需求。然后你需要得到情感得分的两个操作符是“打开WordNet词典”和“提取情感(英语)”,两者都来自WordNet扩展。

    配置“打开Wordnet字典”操作符

    在“资源类型”参数中选择directory,然后配置directory参数指向....\WordNet-3.0\dict文件夹

    processdocumentdetails.png

    请使用“提取情感(字典)”操作符提供的额外帮助来理解各种参数。

    您还可以使用wordnet操作符进行同义词、hyoymms、Hyponyms,以改进您的过程。

    这个过程添加了一个新列“sentiment”,为sentiment提供一个数值,消极情绪的得分小于0,积极情绪的得分大于0。

    人们可以使用情感得分和“生成属性”操作符根据实际得分本身将文档标记为积极,中立,消极等

    有关完整的示例,请参阅附带的过程。

    您可以在RapidMiner Studio中使用文件(菜单)>>导入进程打开该进程。



    截图来自2016-10-20 16_30_43.png

  • aluna04aluna04 成员职位:1贡献我

    你好,

    我也有同样的问题。希望有人能帮忙。

    谢谢!

  • KostasBonikosKostasBonikos 成员职位:25Maven
    诀窍是首先完全解压缩存档文件,然后导航到字典所在的“dict”文件夹。


    因此,在“打开WordNet字典”操作符中,在“目录”选项中,你必须输入这样的内容:“C:\…\WordNet-3.0\dict”
  • rtbarberrtbarber 委员、大学教授职位:8大学教授

    注意:你不能打开wordnet字典在你的循环-它试图打开它多次失败。按照@awchisholmhttp://community.www.turtlecreekpls.com/t5/forums/v3_1/forumtopicpage/board-id/Studio/thread-id/15219/page/4来解决这个问题。

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    嗨……跟进这个知识库。有人能举例解释一下什么是“hyponyms”和“hypernyms”吗?我很难理解他们的意思。@bhupendra_patil@Thomas_Ott

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    所以下位词试图将一个词归类到它的高级分类中。比如刀是餐具的一部分。勺子也是一样,它是餐具的一部分。这里有一个很好的例子:https://en.wikipedia.org/wiki/Hyponymy_and_hypernymy

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    啊,太好了,正是我要找的。谢谢,@Thomas_Ott.您使用过Wordnet扩展中的那些操作符吗?我正在尝试,我可以加载字典,但不能得到任何结果。是这样的:

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.6.002”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >


    < /操作符>


    < /操作符>



    < /操作符>






    > < /过程
    < /操作符>
    > < /过程
  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    @sgenzer是的,我已经使用了这个扩展相当多,但因为我已经移动了机器,我没有机会重新安装Wordnet库。这个扩展是相当不错的,它让用户访问一些强大的情感能力,但它经常被忽视和未充分利用的IMHO。

  • ahootanhaahootanha 成员职位:69贡献我

    有人知道怎么解决这个问题吗?wo1.JPG

    wo1.JPG 0 b
  • ethanlakemanethanlakeman 成员职位:2贡献我

    嘿,

    是否有任何方法从Excel文件中删除某些单词或术语,然后保存具有相同布局的新版本文件,但删除了这些单词?

    我正在分析推文的文本内容进行语言分析,我想在我通过不同的软件运行之前删除外部链接(https)和标签(@…)。

    我已经使用数据文档,标记和删除文档部分,以找到特定的单词频率,并删除上述内容,但我想知道我是否可以生成一个新的excel文件,删除这些单词。

    谢谢,

    伊桑。

  • ruuby815ruuby815 成员职位:1贡献我

    你好,

    我有一个关于提取情感(WordNet)的问题。在结果窗口中,我只找到了整个文档的一个情感分数,我能期望找到每一行的分数而不是整个文档的一个分数吗?

    谢谢你!

    2018-08-25 2.46.35.png

登录注册置评。