基于Wordnet词典的情感分析
Rapidminer文本挖掘功能为情感分析提供了几种方法。在处理英文文本时,常用的一种方法是使用wordnet词典和Rapidminer wordnet词典中的相关运算符。本文概述了如何使用Rapidminer和Wordnet Dictionary进行情感分析。
先决条件
您还需要从“文本处理”扩展在这里
您需要从在这里
wordnet字典的设置步骤
wordnet字典文件的扩展名为“gz”。您将需要使用实用程序,如7Zip提取它。一旦你有了“WordNet-3.0.tar”文件,你将使用相同的7Zip工具进一步解压缩它。然后你应该有一个名为“Wordnet-3.0”的文件夹,里面有dict、doc、include等文件夹。
一旦你完成了这些,你就应该准备好用Rapidminer和使用Wordnet字典来构建一个文本挖掘过程。
在下面的屏幕截图中,我们正在搜索twitter,然后更改我们想要用于“文本处理”的列的数据类型,然后将数据集(Exampleset)传递给“从数据中处理文档”。你可以用你选择的任何数据源,如数据库,excel文件等来代替搜索twitter步骤。如果您想利用文件夹中的文件,您还可以使用“从文件中处理文档”,或者在电子邮件的情况下使用“从邮件存储中处理文档”操作符
然后双击“从数据处理文档”操作符来构建您的文本处理步骤。您将添加标准的文本处理步骤,如标记化,转换大小写,过滤停止词,过滤标记等基于您的特定需求。然后你需要得到情感得分的两个操作符是“打开WordNet词典”和“提取情感(英语)”,两者都来自WordNet扩展。
配置“打开Wordnet字典”操作符
在“资源类型”参数中选择directory,然后配置directory参数指向....\WordNet-3.0\dict文件夹
请使用“提取情感(字典)”操作符提供的额外帮助来理解各种参数。
您还可以使用wordnet操作符进行同义词、hyoymms、Hyponyms,以改进您的过程。
这个过程添加了一个新列“sentiment”,为sentiment提供一个数值,消极情绪的得分小于0,积极情绪的得分大于0。
人们可以使用情感得分和“生成属性”操作符根据实际得分本身将文档标记为积极,中立,消极等
有关完整的示例,请参阅附带的过程。
您可以在RapidMiner Studio中使用文件(菜单)>>导入进程打开该进程。
评论
面对以下问题…如果有人能解决这个问题,那就太好了
你好,
我也有同样的问题。希望有人能帮忙。
谢谢!
因此,在“打开WordNet字典”操作符中,在“目录”选项中,你必须输入这样的内容:“C:\…\WordNet-3.0\dict”
注意:你不能打开wordnet字典在你的循环-它试图打开它多次失败。按照@awchisholm在http://community.www.turtlecreekpls.com/t5/forums/v3_1/forumtopicpage/board-id/Studio/thread-id/15219/page/4来解决这个问题。
嗨……跟进这个知识库。有人能举例解释一下什么是“hyponyms”和“hypernyms”吗?我很难理解他们的意思。@bhupendra_patil?@Thomas_Ott?
所以下位词试图将一个词归类到它的高级分类中。比如刀是餐具的一部分。勺子也是一样,它是餐具的一部分。这里有一个很好的例子:https://en.wikipedia.org/wiki/Hyponymy_and_hypernymy
啊,太好了,正是我要找的。谢谢,@Thomas_Ott.您使用过Wordnet扩展中的那些操作符吗?我正在尝试,我可以加载字典,但不能得到任何结果。是这样的:
@sgenzer是的,我已经使用了这个扩展相当多,但因为我已经移动了机器,我没有机会重新安装Wordnet库。这个扩展是相当不错的,它让用户访问一些强大的情感能力,但它经常被忽视和未充分利用的IMHO。
有人知道怎么解决这个问题吗?
嘿,
是否有任何方法从Excel文件中删除某些单词或术语,然后保存具有相同布局的新版本文件,但删除了这些单词?
我正在分析推文的文本内容进行语言分析,我想在我通过不同的软件运行之前删除外部链接(https)和标签(@…)。
我已经使用数据文档,标记和删除文档部分,以找到特定的单词频率,并删除上述内容,但我想知道我是否可以生成一个新的excel文件,删除这些单词。
谢谢,
伊桑。
你好,
我有一个关于提取情感(WordNet)的问题。在结果窗口中,我只找到了整个文档的一个情感分数,我能期望找到每一行的分数而不是整个文档的一个分数吗?
谢谢你!