x验证和特征生成
janvanrijn
成员职位:15贡献我
我想在交叉验证循环中使用一些特征工程步骤。例如,我想评估PCA(预处理)和k-NN(建模)算法的组合。为此,我使用X-Validation操作符。然而,由于PCA改变了原始数据集中可用的特征,我不能在测试中简单地将模型和测试集输入连接到“Apply model”操作符。我可能还需要做一些预处理方法。
我可以看到PCA有一个预处理模型作为输出,我应该用它来克服问题吗?如果是,怎么做?
我可以看到PCA有一个预处理模型作为输出,我应该用它来克服问题吗?如果是,怎么做?
标记:
0
答案
谢谢你的快速回复。就像我在这里做的那样?
[img = http://s9.postimg.org/d36r9xaqj/pca.jpg]
我仍然得到一个错误,提示错误的属性集(包括在屏幕中)。
遗憾的是,您需要在应用模型操作符前面添加materialize数据。PCA中有一个bug,将在下一个版本中修复。
欢呼,
马丁
德国多特蒙德
最后一个问题。假设我想使用“特征提取”扩展的操作符,不输出这样的模型(就我而言,只是返回一个具有特征重要性的权重向量),我该怎么做呢?
我认为你之后只需使用权重选择。这是它。通常,所有模型都知道它们应用于哪些属性
顺便说一下:我个人最喜欢的是MRMR
最好的
马丁
德国多特蒙德
不过有一个例外,k-NN…无论我选择哪种预处理方法,它总是得到相同的分数。
你使用的是哪个版本的RM ?
有两种方法可以实现模型的应用。通过属性名或属性位置(第一个属性,第二个属性)。我们实现的所有模型都应该使用col.名称。k-NN有一些问题,它认为有些地方是错误的。我知道它是固定的。但是如果你使用5.3,这个bug当然是存在的。
在这种情况下,您需要使用直通端口将权重向量获取到应用端。对于X-Val之外的应用,你需要将向量从X-Val中取出。记住/回忆是解决问题的方法。
问候,
马丁
德国多特蒙德