x验证和特征生成

janvanrijnjanvanrijn 成员职位:15贡献我
2019年11月编辑 帮助
我想在交叉验证循环中使用一些特征工程步骤。例如,我想评估PCA(预处理)和k-NN(建模)算法的组合。为此,我使用X-Validation操作符。然而,由于PCA改变了原始数据集中可用的特征,我不能在测试中简单地将模型和测试集输入连接到“Apply model”操作符。我可能还需要做一些预处理方法。

我可以看到PCA有一个预处理模型作为输出,我应该用它来克服问题吗?如果是,怎么做?
标记:

答案

  • RalfKlinkenbergRalfKlinkenberg 员工,RapidMiner认证分析师,RapidMiner认证专家,rm研究员,成员,未经确认,大学教授职位:68RM创始人
    “Group Models”操作符允许将多个模型捆绑到一个组合模型中。您可以将预处理模型(PCA)和k-NN模型捆绑到一个模型中,该模型可以从交叉验证的训练子过程传递到测试子过程。
  • janvanrijnjanvanrijn 成员职位:15贡献我
    亲爱的拉尔夫,

    谢谢你的快速回复。就像我在这里做的那样?
    [img = http://s9.postimg.org/d36r9xaqj/pca.jpg]

    我仍然得到一个错误,提示错误的属性集(包括在屏幕中)。
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    你好,

    遗憾的是,您需要在应用模型操作符前面添加materialize数据。PCA中有一个bug,将在下一个版本中修复。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • janvanrijnjanvanrijn 成员职位:15贡献我
    太棒了。现在对我有用了。由于这两个:)

    最后一个问题。假设我想使用“特征提取”扩展的操作符,不输出这样的模型(就我而言,只是返回一个具有特征重要性的权重向量),我该怎么做呢?
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    你好,

    我认为你之后只需使用权重选择。这是它。通常,所有模型都知道它们应用于哪些属性

    顺便说一下:我个人最喜欢的是MRMR:)

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • janvanrijnjanvanrijn 成员职位:15贡献我
    看起来确实很好用,谢谢:)

    不过有一个例外,k-NN…无论我选择哪种预处理方法,它总是得到相同的分数。
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    你好,

    你使用的是哪个版本的RM ?
    有两种方法可以实现模型的应用。通过属性名或属性位置(第一个属性,第二个属性)。我们实现的所有模型都应该使用col.名称。k-NN有一些问题,它认为有些地方是错误的。我知道它是固定的。但是如果你使用5.3,这个bug当然是存在的。

    在这种情况下,您需要使用直通端口将权重向量获取到应用端。对于X-Val之外的应用,你需要将向量从X-Val中取出。记住/回忆是解决问题的方法。

    问候,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
登录注册置评。