“情绪分析入门”
你好,
我正在寻求建议,如何以最不痛苦的方式开始进行情绪分析。我目前正在写关于网络论坛上的社会行为的学士论文。为此,我一直在爬行主题丹麦论坛在过去的2个月,它终于看起来像我有我需要的数据。
我在SPSS中做最基本的统计分析,在那里我会比较用户排名,用户发布的帖子数量,以及他或她的话题的回答数量。然而,我也有主题文本,我想用情感分析的逻辑来分类。
你可能已经猜到了,我是一个全新的快速矿工。我一直在尝试复制粘贴加速器情感分析的工作流程。但似乎我一直得到错误关于我的数据格式。然而,我只有两个列:post & category。在类别列中,我将一些行映射为“正”,另一些行映射为“负”。行中的文本是丹麦文,一些主题包含链接,引号等。
你可以在这里看看我的csv文件:
https://dl.dropboxusercontent.com/u/3592722/Holdout.csv
这是我得到的错误:
我需要创建/预测的最重要的两个分类是:
——积极/消极
-主题(基于主题列表,以及每个主题的关键字)
下面是问题:
1)我在情感分析中做错了什么?
2)是否有可能建立一个预测模型,根据关键词(apple, win等)对主题进行分类并标记主题名称?
我还有一个月的时间来学习这些东西。这看起来现实吗?
提前感谢,
我正在寻求建议,如何以最不痛苦的方式开始进行情绪分析。我目前正在写关于网络论坛上的社会行为的学士论文。为此,我一直在爬行主题丹麦论坛在过去的2个月,它终于看起来像我有我需要的数据。
我在SPSS中做最基本的统计分析,在那里我会比较用户排名,用户发布的帖子数量,以及他或她的话题的回答数量。然而,我也有主题文本,我想用情感分析的逻辑来分类。
你可能已经猜到了,我是一个全新的快速矿工。我一直在尝试复制粘贴加速器情感分析的工作流程。但似乎我一直得到错误关于我的数据格式。然而,我只有两个列:post & category。在类别列中,我将一些行映射为“正”,另一些行映射为“负”。行中的文本是丹麦文,一些主题包含链接,引号等。
你可以在这里看看我的csv文件:
https://dl.dropboxusercontent.com/u/3592722/Holdout.csv
这是我得到的错误:
我需要创建/预测的最重要的两个分类是:
——积极/消极
-主题(基于主题列表,以及每个主题的关键字)
下面是问题:
1)我在情感分析中做错了什么?
2)是否有可能建立一个预测模型,根据关键词(apple, win等)对主题进行分类并标记主题名称?
我还有一个月的时间来学习这些东西。这看起来现实吗?
提前感谢,
0
答案
CSV文件使用“,”作为列分隔符。这不是最优的,因为在您的文本列中有
可能也有很多“,”。请选择文本列中不存在的其他分隔符。你也可以
在不出现此类问题的地方,请使用excel格式。另外,将类别列重命名为
“情绪”。
欢呼,
弗兰克
的帮助!
谢谢你! !