监督情绪分析-删除@
你好,
我目前正在对Instagram上的评论进行监督情感分析。我遇到的一个问题是,有很多评论回复,一开始就提到了回复对象的名字。
所以一个人评论了一些东西,另一个人回复了这个评论,他们的回复以@nameofthecommenter.这个名字,作为excel表格的一部分,因此我要考虑的数据,正在被纳入分析,从而影响分析的结果,因为这个名字也被评级了。我知道我可以删除包含@的整个单元格,但这也会删除注释的其余部分,从而删除有价值的数据。
有没有一种方法可以立即删除@后面的内容,从而只删除正在回复的人的名字,而不删除整个评论?
提前感谢!
安娜可能
我目前正在对Instagram上的评论进行监督情感分析。我遇到的一个问题是,有很多评论回复,一开始就提到了回复对象的名字。
所以一个人评论了一些东西,另一个人回复了这个评论,他们的回复以@nameofthecommenter.这个名字,作为excel表格的一部分,因此我要考虑的数据,正在被纳入分析,从而影响分析的结果,因为这个名字也被评级了。我知道我可以删除包含@的整个单元格,但这也会删除注释的其余部分,从而删除有价值的数据。
有没有一种方法可以立即删除@后面的内容,从而只删除正在回复的人的名字,而不删除整个评论?
提前感谢!
安娜可能
0
最佳答案
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽这似乎是与其他线程相关的相同问题:https://community.www.turtlecreekpls.com/discussion/58087/removing-mentions-with-and-emojis-from-excel-data#latest
我认为解决方案在这里也应该起作用。5
答案
有多种方法可以做到这一点。
您是否将数据放在一个表中,将注释放在一个标称列中?在这种情况下,使用混合/值/替换正则表达式。例如,你可以替换“^\”@ a-zA-Z0-9 +*”(没有引号)。这个表达的意思是:
^字符串的开始
\ @在符号,用反斜杠转义以删除任何特殊含义
[a-zA-Z0-9_]+ @符号后面的一个或多个上述字符类。
*零个或多个空格(因此剩余文本不会以空格开头)
正则表达式编辑器窗口有一个下拉菜单,其中包含正则表达式的这些部分和其他部分的提示。
您可以将替换保留为空,因为您不用任何内容替换用户名。
如果您使用的是已经标记化的数据(拆分为单个单词),则可以使用相同正则表达式的Replace Tokens。
最好的问候,
Balazs
非常感谢您的回复。我试过你的建议,但遗憾的是它们对我不起作用。不确定我做得对不对。
我附上了我的流程和原始数据。
我想达到的目标是:
-删除任何以“@”开头的单词(不是整行)。
删除空行
删除重复的
-删除表情符号(现在,在这个过程中,我结束了问号而不是表情符号作为输出,所以我宁愿立即删除表情符号)
你对如何实现这个目标有什么建议吗?
祝你度过愉快的一天!
亲切的问候
安娜可能