处理测试数据- SVM的输入和输出
HeikoeWin786
成员职位:64因素二世
亲爱的所有,
我注意到,当我对测试(未见过/未标记的数据集)执行相同的数据处理步骤时,处理的输出消除了列(它消除了常规属性,只返回标签),即不同于处理训练数据集的输出,其中训练数据集的输出返回标签和常规属性。
它也显示了错误。
如果有人能在这个建模过程中给我建议或教育我,那就太好了。
提前感谢。
我注意到,当我对测试(未见过/未标记的数据集)执行相同的数据处理步骤时,处理的输出消除了列(它消除了常规属性,只返回标签),即不同于处理训练数据集的输出,其中训练数据集的输出返回标签和常规属性。
它也显示了错误。
如果有人能在这个建模过程中给我建议或教育我,那就太好了。
提前感谢。
标记:
0
最佳答案
-
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家1) SVM只能处理数值属性,是的。这就是为什么您需要执行tf/idf将文本转换为数字矢量的原因。但是,它可以使用二名标记。这应该行得通。那么我觉得2号比较好。
最好的马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德5
答案
德国多特蒙德
非常感谢您的回复。
这不是失败,这是一个警告。但是,为什么这个警告显示,即使它没有消失。
然而,我感到困惑的是:从数据(2)操作符中提取流程文档正在消除列。
例如,对于从数据(1)操作符提取流程文档,单词被标记并转换为许多常规属性。然而,对于(2),exe显示0个属性,只有一个标签属性。
我不知道我做得对不对。
我所理解的是,训练数据集和未见/未标记数据集的预处理应该是相同的,我们将训练数据集预处理的单词输出作为未见/未标记数据集的输入。
期待您的解释。
谢谢。
德国多特蒙德
感谢您的及时回复。以警告案例而闻名。
然而,我有两个扩展的问题:
1)我试图在数据集上执行支持向量机,其中客户评论为多标称,情感评分为生物标称。我读了教程,发现SVM只能处理数字,需要将标称转换为数字。然而,它是将客户评论和情感评分都转换为数字吗?我们需要在哪些步骤中进行转换?数据处理后?我有点困惑的情绪分析是如何工作的支持向量机在快速矿工。示例模板下的RM教程使用文本和二项式,甚至没有转换为数字。
2)我在处理的文档中使用了tokenize, transform cases, filter stopwords, stem porter和按token长度过滤。对于预处理(1)和预处理(2)都是一样的。
非常感谢您的提前解释!
谢谢你友好的解释。帮助!
最后一个问题。
我将“标称文本”设置为“ALL”,而不是选择单个属性,例如客户评论文本。
在这种情况下,标签属性是否也将更改为Text?
是否有必要将标签属性从普通属性排除到文本属性?
我在标称文本操作符之前使用设置角色操作符。
谢谢,
德国多特蒙德