从Excel数据中删除带有“@”和表情符号的提及
你好,RapidMiner社区,
我目前正在研究一项监督情绪分析。我成功地做了情感分析本身,但我对它使用的数据不太满意。
作为数据准备的一部分,我想要删除提及(即“@”后面的名字),我已经尝试了一些建议。到目前为止,我生成的流程和测试数据都上传到了这里。
我正在与“替换”操作符一起工作,但遗憾的是,在这个过程之后,结果仍然包含了一些提及。这些提到仍然存在,因为要么a)它们是一行中的第二次提到,要么b)它们提到的不是在一行的开头。
你们有什么想法吗?
总的来说,我想达到的目标是:
-删除任何以“@”开头的单词(不是整行)。
-删除空行
删除重复的
-删除表情包(现在,在这个过程中,输出的是问号而不是表情包,所以我宁愿马上删除这些表情包)
感谢您的建议!
安娜可能
我目前正在研究一项监督情绪分析。我成功地做了情感分析本身,但我对它使用的数据不太满意。
作为数据准备的一部分,我想要删除提及(即“@”后面的名字),我已经尝试了一些建议。到目前为止,我生成的流程和测试数据都上传到了这里。
我正在与“替换”操作符一起工作,但遗憾的是,在这个过程之后,结果仍然包含了一些提及。这些提到仍然存在,因为要么a)它们是一行中的第二次提到,要么b)它们提到的不是在一行的开头。
你们有什么想法吗?
总的来说,我想达到的目标是:
-删除任何以“@”开头的单词(不是整行)。
-删除空行
删除重复的
-删除表情包(现在,在这个过程中,输出的是问号而不是表情包,所以我宁愿马上删除这些表情包)
感谢您的建议!
安娜可能
0
答案
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= "注释" / >
<列出关键= " data_set_meta_data_information " >
< / >列表
< /操作符>
<参数键=“replace_what”值= " [^ \ x00 - \ x7F] " / >
< /操作符>
< /操作符>
/> .
> < /过程
< /操作符>
> < /过程
德国多特蒙德
谢谢你的快速回复.我试过你的代码,它确实删除了表情符号,但没有删除任何提及。所以所有的提及仍然在那里,即使是在一行开始的那些,之前被删除的。
对于为什么会出现这种情况,你有什么建议吗?
欢呼,
安娜可能
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= "注释" / >
<列出关键= " data_set_meta_data_information " >
< / >列表
< /操作符>
<参数键=“replace_what”值= " [^ \ x00 - \ x7F] " / >
< /操作符>
< /操作符>
/> .
> < /过程
< /操作符>
> < /过程
德国多特蒙德
再次感谢您的宝贵时间!我不知道为什么,但这仍然不适合我。你介意以另一种形式分享你的过程吗?
欢呼,
安娜可能
德国多特蒙德