处理测试数据- SVM的输入和输出

HeikoeWin786HeikoeWin786 成员职位:64因素二世
2020年7月编辑 帮助
亲爱的所有,

我注意到,当我对测试(未见过/未标记的数据集)执行相同的数据处理步骤时,处理的输出消除了列(它消除了常规属性,只返回标签),即不同于处理训练数据集的输出,其中训练数据集的输出返回标签和常规属性。
它也显示了错误。
如果有人能在这个建模过程中给我建议或教育我,那就太好了。
提前感谢。


标记:

最佳答案

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    你好,
    这是一个警告,而不是错误。当你运行它时,你确定它失败了吗?

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    HeikoeWin786
  • HeikoeWin786HeikoeWin786 成员职位:64因素二世
    你好@mschmitz

    非常感谢您的回复。
    这不是失败,这是一个警告。但是,为什么这个警告显示,即使它没有消失。
    然而,我感到困惑的是:从数据(2)操作符中提取流程文档正在消除列。
    例如,对于从数据(1)操作符提取流程文档,单词被标记并转换为许多常规属性。然而,对于(2),exe显示0个属性,只有一个标签属性。
    我不知道我做得对不对。
    我所理解的是,训练数据集和未见/未标记数据集的预处理应该是相同的,我们将训练数据集预处理的单词输出作为未见/未标记数据集的输入。

    期待您的解释。

    谢谢。
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    一般来说,你做的对我来说是正确的,但我当然需要检查细节,看看发生了什么。特别令人感兴趣的是“在”来自数据(2)的过程文档“内部”发生了什么。

    关于警告,我们需要从我们拥有的元数据中生成警告。我们在没有实际数据的情况下通过进程传输表头,因为我们还没有执行该进程。所以有些事情是我们不知道的。这方面的一个例子是:在流程文档中创建哪些列?只有运行后才能知道。
    这就是为什么你有时会收到“不合适”的警告。但这也是为什么这些是警告,而不是错误。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • HeikoeWin786HeikoeWin786 成员职位:64因素二世
    你好@mschmitz
    感谢您的及时回复。以警告案例而闻名。
    然而,我有两个扩展的问题:
    1)我试图在数据集上执行支持向量机,其中客户评论为多标称,情感评分为生物标称。我读了教程,发现SVM只能处理数字,需要将标称转换为数字。然而,它是将客户评论和情感评分都转换为数字吗?我们需要在哪些步骤中进行转换?数据处理后?我有点困惑的情绪分析是如何工作的支持向量机在快速矿工。示例模板下的RM教程使用文本和二项式,甚至没有转换为数字。
    2)我在处理的文档中使用了tokenize, transform cases, filter stopwords, stem porter和按token长度过滤。对于预处理(1)和预处理(2)都是一样的。

    非常感谢您的提前解释!
  • HeikoeWin786HeikoeWin786 成员职位:64因素二世
    @mschmitz
    谢谢你友好的解释。帮助!
    最后一个问题。
    我将“标称文本”设置为“ALL”,而不是选择单个属性,例如客户评论文本。
    在这种情况下,标签属性是否也将更改为Text?
    是否有必要将标签属性从普通属性排除到文本属性?
    我在标称文本操作符之前使用设置角色操作符。

    谢谢,
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    你好,
    如果选中“include special attributes”,则标签也会转换为文本。如果你不检查,它就不是。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    HeikoeWin786
登录注册置评。