看起来你是新来的。登录或注册开始。
我是RapidMiner的新手,我正在努力理解如何使用Filter命令来清理twitter提要。我正在从CSV文件导入这些,并试图在流程文档操作员中创建子流程以删除twitter句柄(@)RT和标签。例如,我尝试通过内容使用过滤器令牌,指定条件包含字符串@。虽然进程运行没有错误,但我无法在结果中看到twitter句柄被删除。谁能告诉我如何清理这些数据?
当您从CSV加载tweet时,它们将作为标称数据类型进入。要使用按内容筛选令牌,需要通过标称到文本操作符将这些tweet转换为文本数据类型。
下面是使用Search Twitter操作符进行清理的示例。
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.5.000”>> <上下文<输入/ ><输出/ ><宏>宏观> << >关键字关键> < /< >价值唐纳德·特朗普< /值>宏观> < /< /宏>> < /上下文<过程扩展= " true " >< /操作符>< /操作符>< /操作符>< /操作符><列出关键= " specify_weights " / ><过程扩展= " true " ><列出关键= " replace_dictionary " >< / >列表< /操作符>< /操作符>> < /过程< /操作符>< /操作符>< /操作符>> < /过程< /操作符>> < /过程
答案
当您从CSV加载tweet时,它们将作为标称数据类型进入。要使用按内容筛选令牌,需要通过标称到文本操作符将这些tweet转换为文本数据类型。
下面是使用Search Twitter操作符进行清理的示例。