实体情感和提取-使用Rapidminer和Rosette分析英语和法语推文

珍妮珍妮 成员职位:4贡献我

公民权万岁,法兰西万岁!

使用Rapidminer和Rosette分析选举周末期间的英语和法语推文

在美国总统大选和英国“脱欧”公投结果出人意料之后,许多人预计法国最近的选举将再次出现民粹主义的颠覆。正如我们现在所知,“前进!”击败了民粹主义候选人国民阵线的马琳·勒庞。社交媒体上的人气和情绪是否反映了选举结果?我们看看使用玫瑰API和RapidMiner。

我们使用Rosette API对英语和法语推文进行实体提取,看看谁是那个周末被提及最多的人。马琳·勒庞经常被称为“法国的特朗普”,所以我们很好奇这位美国总统是否能跻身被提及最多的人物之列。我们还通过情感分析来寻找Twitter的趋势。

RapidMiner Studio 7.5.001的免费版本使我们能够分析10,000条tweet(1条tweet = 1行),这样一个小模型可能会导致30%的准确性损失。当然,对于企业分析,我们鼓励您升级以在更多数据上构建模型,以获得更好的结果。

语言识别

不出所料,我们收集的大多数推文都是法语(约80%),其次是英语和意大利语。除了一条乌兹别克语的推特外,其他被识别的语言是欧洲本土语言(德语、立陶宛语、爱沙尼亚语、捷克语、波兰语和其他一些语言)和欧洲常用的语言,包括阿拉伯语和土耳其语。

截屏时间2017-05-22下午3:46.20 .png

实体提取

提取实体是一种强大的方法,可以在不阅读每条推文的情况下准确了解数据趋势。虽然关键字搜索可能会返回一些信息,但它们本质上是受您期望的影响,而且不如让数据自己说话有价值。

在这个数据集中,最常见的实体类型是头衔(m - Mrs)、组织(例如路透社、BBC)和地点(法国自然是最常见的)。

你可以想象,最受欢迎的名字是“马琳·勒庞”和“埃马纽埃尔·马克龙”,但勒庞的提及次数超过了她的对手。法国前总统弗朗索瓦·奥朗德是被提及频率第三高的法国人物。在美国人中,巴拉克·奥巴马和唐纳德·特朗普也进入了前15名,紧随其后的是几位法国名人。由于奥巴马总统正式支持埃马纽埃尔·马克龙,他在我们的数据中比特朗普更受欢迎(奥巴马排名第13,特朗普排名第15)。

此外,大多数推文都包含一个URL,表明人们更愿意分享信息或图片,而不是从头开始用纯文本起草推文。

情绪分析

总的来说,我们收集的推文负面多于正面。这种趋势并不是政治领域独有的,因为更多的人倾向于在互联网上抱怨而不是赞扬。

成为最常被提及的人并不一定意味着你是最“受欢迎的人”。尽管勒庞被广泛谈论,但她在选举中失败的事实证明了这一理论。然而,我们决定进一步分析针对实体的情感分析它显示了对给定实体的感觉。

我们把实体情绪应用到埃马纽埃尔·马克龙和马琳·勒庞身上,看看人们截屏时间2017-05-22下午3点48分11秒我们对每个候选人都有“感觉”。正如预期的那样,中立的情绪占主导地位,人们中立地分享提到候选人的url。然而,结果与整体样本的趋势相同:大多数推文对两位候选人都持负面看法(见埃马纽埃尔·马克龙(Emmanuel Macron)实体情绪的饼状图)。

既然我们知道埃马纽埃尔·马克龙已经当选为法兰西第五共和国第八任总统,我们也可以确认,成为推特上最受欢迎/被提及的人并不意味着你就是赢家。同样有趣的是,埃马纽埃尔·马克龙(Emmanuel Macron)和马琳·勒庞(Marine Le Pen)的消极/积极情绪比率并没有太大差异:先是中性,然后是消极,最后是积极,比例大致相同。

执行你自己的分析

为了处理10,000条tweet,我们使用了几个Rosette API操作符,包括:

  • 识别语言
  • 实体提取
  • 情绪分析
  • 实体的情绪

我们还使用Rapidminer运算符来比较英语推文和法语推文的结果:

  • 过滤示例-例如,将结果仅过滤为英语

然后,为了缩小结果范围,我们使用了分组、聚合和排序。

  • 分组聚合-按实体可视化结果
  • 排序-将结果从多到少排序

截屏时间2017-05-22下午3点48分32秒

想玩玩用Rapidminer工作室玫瑰API?现在免费下载这些工具。了解如何开始与玫瑰操作员看我们以前的博客关于实体抽取。



Thomas_Ott
    登录注册置评。