监督情绪分析-删除@

Anna_May1Anna_May1 成员职位:14学我
2020年10月编辑 帮助
你好,

我目前正在对Instagram上的评论进行监督情感分析。我遇到的一个问题是,有很多评论回复,一开始就提到了回复对象的名字。
所以一个人评论了一些东西,另一个人回复了这个评论,他们的回复以@nameofthecommenter.这个名字,作为excel表格的一部分,因此我要考虑的数据,正在被纳入分析,从而影响分析的结果,因为这个名字也被评级了。我知道我可以删除包含@的整个单元格,但这也会删除注释的其余部分,从而删除有价值的数据。

有没有一种方法可以立即删除@后面的内容,从而只删除正在回复的人的名字,而不删除整个评论?

提前感谢!

安娜可能

最佳答案

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:888独角兽
    @Anna_May1

    有多种方法可以做到这一点。
    您是否将数据放在一个表中,将注释放在一个标称列中?在这种情况下,使用混合/值/替换正则表达式。例如,你可以替换“^\”@ a-zA-Z0-9 +*”(没有引号)。这个表达的意思是:
    ^字符串的开始
    \ @符号,用反斜杠转义以删除任何特殊含义
    [a-zA-Z0-9_]+ @符号后面的一个或多个上述字符类。
    *零个或多个空格(因此剩余文本不会以空格开头)

    正则表达式编辑器窗口有一个下拉菜单,其中包含正则表达式的这些部分和其他部分的提示。

    您可以将替换保留为空,因为您不用任何内容替换用户名。

    如果您使用的是已经标记化的数据(拆分为单个单词),则可以使用相同正则表达式的Replace Tokens。

    最好的问候,
    Balazs
  • Anna_May1Anna_May1 成员职位:14学我
    2020年11月编辑
    BalazsBarany

    非常感谢您的回复。我试过你的建议,但遗憾的是它们对我不起作用。不确定我做得对不对。

    我附上了我的流程和原始数据。
    我想达到的目标是:
    -删除任何以“@”开头的单词(不是整行)。
    删除空行
    删除重复的
    -删除表情符号(现在,在这个过程中,我结束了问号而不是表情符号作为输出,所以我宁愿立即删除表情符号)

    你对如何实现这个目标有什么建议吗?

    祝你度过愉快的一天!

    亲切的问候

    安娜可能
登录注册置评。