不能计算线性回归模型的性能

aledipo10aledipo10 成员职位:2贡献我
2018年11月编辑 帮助

你好,

我是rapidminer的第一次用户,需要进行一个课程的项目。

我们的目标是从一些数据中创建一个线性回归模型,将其应用到一组新的类似数据中,并验证该模型。我采取的方法是:

1.加载数据

2.选择有趣的属性(预测变量,我相信会影响目标)

3.将一个分类属性转换为虚拟变量

4应用线性回归模型

5.加载新数据集,应用模型并查看结果

然而,当我试图将应用模型块的out lab端口连接到性能块的lab inp端口时,我在最后得到了一个错误:

"输入示例集没有标签属性performance"

在这个问题上你有什么见解可以帮助我吗?

请查看附件中的。rpm进程

提前谢谢,A。

答案

  • IngoRMIngoRM 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,社区管理员,rm研究员,成员,大学教授职位:1751年RM创始人

    你好,

    修复是相对容易的:只需要执行RapidMiner要求您执行的操作,并在测试数据中保留标签属性“Avg_Sale_Amount”(也将其角色更改为标签,就像您在训练数据中所做的那样)。

    想想看:如果RM不知道真实值是什么,它应该如何计算性能呢?这就是性能操作符需要标签这两个属性的原因而且这样它就可以进行比较。

    希望这有助于

    Ingo

  • aledipo10aledipo10 成员职位:2贡献我

    嗨IngoRM,

    谢谢你的回复。

    其实我不太清楚,抱歉。属性“Avg_Sale_Amount”在测试数据中不存在,因为它是要预测的目标变量。实际上,在将线性回归的输出和测试数据输入“Apply model”块之后,我在结果中看到了名为“prediction(Avg_Sale_Amount)”的属性。

    我应该如何保持标签属性“Avg_Sale_Amount”也在测试数据?

    谢谢你的帮助,A。

  • IngoRMIngoRM 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,社区管理员,rm研究员,成员,大学教授职位:1751年RM创始人

    你好,

    我没有你的原始数据,所以我不知道“Avg_Sale_Amount”列是否在原始数据中。如果是,只需将其包含在使用Select attributes操作符选择的属性列表中。并将角色设置为标签(就像您在流程的培训部分所做的那样)。

    如果它不是测试数据的一部分,那么…它实际上不是测试数据:-)测试数据集的思想是你有真正的标签,这样你就可以与预测进行比较。如果你不知道真相,那就没有什么可比较的了。

    在这种情况下,暂时忘掉您的“测试”数据,只需使用split data操作符对训练数据进行分割,以实际创建您的测试数据集(包括标签列!)另外,你也可以使用交叉验证等验证操作符。

    如果你现在还不清楚,我建议你在屏幕右上角“教程”下的“Need Help?”菜单中找到RapidMiner做教程。我特别推荐“建模、评分和验证”一节中的教程。

    希望这有助于

    Ingo

  • prashant768prashant768 成员职位:4学我
    我认为这里的重点是在没有目标变量的情况下获得新数据集的预测。一旦我们创建了模型并获得了该模型的性能,现在我们希望使用该模型来预测没有目标变量的新数据集的值。在这种情况下,RM给出了错误
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:824独角兽
    在这种情况下你做错了什么。请观看学院关于预测数据和评估模型的正确方法的视频。

    为了构建模型,您需要一个带有标签(= attribud标记为角色标签)和其他常规属性的数据集。

    应用模型接受一个带有或不带有标签(标签被忽略)但所有必要的常规属性的数据集。

    然后添加一个预测列和角色预测

    对于性能操作符,你显然需要标签和预测,这是比较来决定机器学习性能。如果只是进行预测,您不需要新数据集中的标签,您可以从应用模型获得预测。

    问候,
    Balazs

登录注册置评。