在文本处理期间保留行
你好,Rapidminer的朋友们-我正试图处理一些文本的情绪分析,并被卡住了。我有一个大约有3000行的excel电子表格,每一行都是自由文本评论,表达对体验的看法。我想用“提取情绪”操作符从操作符工具箱扩展到为每个单独的评论分配一个情感值。
我是进口,改变标称文本,然后使用从数据中处理文档有子操作符标记,变换情况下,过滤器Stopwords(英语),筛选标记(长度),阀杆(搬运工)。当我在这个阶段检查结果时,每一行都与一个标记相关联,而不是与组成一行的原始标记字符串相关联。是否有一种方法来解决这个问题,或者在上述步骤之后重新拼接离散的令牌?我需要为电子表格中的每一行分配情感,而不是整个电子表格。
非常感谢您的帮助-并道歉,如果这是一个新手查询
我是进口,改变标称文本,然后使用从数据中处理文档有子操作符标记,变换情况下,过滤器Stopwords(英语),筛选标记(长度),阀杆(搬运工)。当我在这个阶段检查结果时,每一行都与一个标记相关联,而不是与组成一行的原始标记字符串相关联。是否有一种方法来解决这个问题,或者在上述步骤之后重新拼接离散的令牌?我需要为电子表格中的每一行分配情感,而不是整个电子表格。
非常感谢您的帮助-并道歉,如果这是一个新手查询
0
最佳答案
-
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家嗨@JohnG22,
我认为解决方案是不使用过程文件从数据,但循环收集预处理你的数据集,像这样:
附件是流程。
最好的马丁
< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.8.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
< /操作符>
< /操作符>
<列出关键= " specify_weights " / >
< /操作符>
<过程扩展= " true " >
< /操作符>
> < /过程
< /操作符>
< /操作符>
<列出关键= " additional_words " / >
< /操作符>
> < /过程
< /操作符>
> < /过程
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德5
答案
如果你的电子表格中有Id属性,你可以使用它;如果没有,就使用Generate Id。
然后使用正片叠底复制表格。在一个副本上进行预处理,处理后再连接回另一个副本。选择您需要的属性。
另一种方法是创建文本属性的副本,但将其保留为标称类型。
第一种或第二种方法更容易,这取决于您的流程。
最好的问候,
Balazs