从Excel数据中删除带有“@”和表情符号的提及

Anna_May1Anna_May1 成员职位:14学我
2020年11月编辑 帮助
你好,RapidMiner社区,

我目前正在研究一项监督情绪分析。我成功地做了情感分析本身,但我对它使用的数据不太满意。

作为数据准备的一部分,我想要删除提及(即“@”后面的名字),我已经尝试了一些建议。到目前为止,我生成的流程和测试数据都上传到了这里。

我正在与“替换”操作符一起工作,但遗憾的是,在这个过程之后,结果仍然包含了一些提及。这些提到仍然存在,因为要么a)它们是一行中的第二次提到,要么b)它们提到的不是在一行的开头。

你们有什么想法吗?

总的来说,我想达到的目标是:
-删除任何以“@”开头的单词(不是整行)。
-删除空行
删除重复的
-删除表情包(现在,在这个过程中,输出的是问号而不是表情包,所以我宁愿马上删除这些表情包)

感谢您的建议!

安娜可能

答案

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    @Anna_May1
    一个好!我需要谷歌一点正确的正则表达式。附带的过程应该可以做到这一点。

    最好的
    马丁
    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.8.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文




    .
    .

    <过程扩展= " true " >


    .
    .



    <列出关键= "注释" / >
    .
    .


    <列出关键= " data_set_meta_data_information " >

    < / >列表



    < /操作符>


    .
    .



    .
    .

    .


    <参数键=“replace_what”值= " [^ \ x00 - \ x7F] " / >
    替换所有非ascii字母
    < /操作符>


    .
    .



    .
    .

    .


    @ /比;
    替换@<; /描述>
    < /操作符>
    /> .
    .
    .
    > < /过程
    < /操作符>
    > < /过程



    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    Anna_May1
  • Anna_May1Anna_May1 成员职位:14学我
    @mschmitz

    谢谢你的快速回复:).我试过你的代码,它确实删除了表情符号,但没有删除任何提及。所以所有的提及仍然在那里,即使是在一行开始的那些,之前被删除的。

    对于为什么会出现这种情况,你有什么建议吗?

    欢呼,

    安娜可能

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    @Anna_May1
    对不起,是我的错。我以为你只想换掉@-symbol而不是@这个名字。附件是正确的。

    最好的
    马丁


    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.8.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文




    .
    .

    <过程扩展= " true " >


    .
    .



    <列出关键= "注释" / >
    .
    .


    <列出关键= " data_set_meta_data_information " >

    < / >列表



    < /操作符>


    .
    .



    .
    .

    .


    <参数键=“replace_what”值= " [^ \ x00 - \ x7F] " / >
    替换所有非ascii字母
    < /操作符>


    .
    .



    .
    .

    .


    @ (\ w +)“/比;
    替换@<; /描述>
    < /操作符>
    /> .
    .
    .
    > < /过程
    < /操作符>
    > < /过程



    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    Anna_May1
  • Anna_May1Anna_May1 成员职位:14学我
    @mschmitz

    再次感谢您的宝贵时间!我不知道为什么,但这仍然不适合我。你介意以另一种形式分享你的过程吗?

    欢呼,

    安娜可能
  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    @Anna_May1
    你说得对。xml有问题,让我们试试rmp。
    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    Telcontar120
登录注册置评。