如何将具有优化参数的模型应用于测试集?

Samira_123 · 2020年5月

你好,

我有一个关于我的分类作业的问题。我必须预测捐赠者是否会捐赠(0级和1级)。

我建立了一个模型，这要归功于“优化参数”(正如这里所建议的那样)，我使用了随机森林。我得到了一个相关的kappa，一个好的系数矩阵和一个成本矩阵。

这个模型的性能令人满意，但我有一个问题。
我想用我用优化参数构建的模型在测试集(从读取csv)上“应用模型”。然而，当我试图应用该模型来获得该测试集的预测时，快速挖掘存在一个问题。

我需要在这个测试集上应用这个模型来得到捐赠者的类别预测，但不幸的是我不能。

我试着在网上找信息，但没有找到任何相关的。我这样做也许是不对的。

从这个测试集获得类预测后，我必须使用write csv。

谢谢你！

祝大家周末愉快!

lionelderkrikor · 2020年5月

@Samira_123，

训练集和测试集的属性必须是完全一样．
换句话说，在建模之前应用于训练集的所有预处理步骤也必须在测试集中执行。
我特别注意到，在你的训练集中，你使用:
- 2生成属性操作符:在评分之前，您必须在测试集中生成相同的属性。
——一个标称到数值operator:这个operator在你的训练集上执行“一次热编码”，并生成新的属性。
您还必须按照以下原则将此运算符应用于测试集中有关的属性:

Image: https://us.v-cdn.net/6030995/uploads/editor/nk/vp2l1h17h9bg.png

问候,

莱昂内尔

lionelderkrikor · 2020年5月

嗨@Samira_123，

你可以在训练过程中使用商店操作符将您的训练模型存储在RapidMiner存储库中:

Image: https://us.v-cdn.net/6030995/uploads/editor/uv/kblwruextnvd.png

然后打开一个新进程并从RapidMiner存储库中检索模型，并使用它通过对测试集进行评分应用模型接线员:

Image: https://us.v-cdn.net/6030995/uploads/editor/1u/jutgsc4t6he0.png

在附件中，使用泰坦尼克数据集的2个过程(训练和测试)。

如果您在执行建议的解决方案后仍然遇到错误，请描述您的问题，分享您的过程和数据，以便我们能够重现，理解和解决您的问题。

问候,

莱昂内尔

Samira_123 · 2020年5月

嗨@lionelderkrikor，

谢谢你的回答

我做了这些步骤。在这里你可以找到我的模型和数据库的截图和数据集。我必须连接前3个表来构建我的模型，然后我需要使用捐赠者来预测作为我的测试集(在这个数据集中只有一列“潜在捐赠者”)。

我最初这样做了，但仍然有一个问题

Image: https://us.v-cdn.net/6030995/uploads/editor/l5/4uhauyfsdrlz.png

Samira_123 · 2020年5月

@lionelderkrikor

因为捐助者中只有一列需要预测，所以我应该在开始时加入4个表，而不是只加入3个表。

我只是害怕在一开始使用它会使我的模型产生偏差，但我在优化过程中使用了拆分数据。

谢谢你的回答

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

如何将具有优化参数的模型应用于测试集?

最佳答案

答案