清理twitter数据

ilzeilze 成员职位:2贡献我
2018年11月编辑 帮助

我是RapidMiner的新手,我正在努力理解如何使用Filter命令来清理twitter提要。我正在从CSV文件导入这些,并试图在流程文档操作员中创建子流程以删除twitter句柄(@)RT和标签。例如,我尝试通过内容使用过滤器令牌,指定条件包含字符串@。虽然进程运行没有错误,但我无法在结果中看到twitter句柄被删除。谁能告诉我如何清理这些数据?

标记:

答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    当您从CSV加载tweet时,它们将作为标称数据类型进入。要使用按内容筛选令牌,需要通过标称到文本操作符将这些tweet转换为文本数据类型。

    下面是使用Search Twitter操作符进行清理的示例。

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.5.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏>
    宏观> <
    < >关键字关键> < /
    < >价值唐纳德·特朗普< /值>
    宏观> < /
    < /宏>
    > < /上下文


    <过程扩展= " true " >

登录注册置评。