不能计算线性回归模型的性能
你好,
我是rapidminer的第一次用户,需要进行一个课程的项目。
我们的目标是从一些数据中创建一个线性回归模型,将其应用到一组新的类似数据中,并验证该模型。我采取的方法是:
1.加载数据
2.选择有趣的属性(预测变量,我相信会影响目标)
3.将一个分类属性转换为虚拟变量
4应用线性回归模型
5.加载新数据集,应用模型并查看结果
然而,当我试图将应用模型块的out lab端口连接到性能块的lab inp端口时,我在最后得到了一个错误:
"输入示例集没有标签属性performance"
在这个问题上你有什么见解可以帮助我吗?
请查看附件中的。rpm进程
提前谢谢,A。
0
答案
你好,
修复是相对容易的:只需要执行RapidMiner要求您执行的操作,并在测试数据中保留标签属性“Avg_Sale_Amount”(也将其角色更改为标签,就像您在训练数据中所做的那样)。
想想看:如果RM不知道真实值是什么,它应该如何计算性能呢?这就是性能操作符需要标签这两个属性的原因而且这样它就可以进行比较。
希望这有助于
Ingo
嗨IngoRM,
谢谢你的回复。
其实我不太清楚,抱歉。属性“Avg_Sale_Amount”在测试数据中不存在,因为它是要预测的目标变量。实际上,在将线性回归的输出和测试数据输入“Apply model”块之后,我在结果中看到了名为“prediction(Avg_Sale_Amount)”的属性。
我应该如何保持标签属性“Avg_Sale_Amount”也在测试数据?
谢谢你的帮助,A。
你好,
我没有你的原始数据,所以我不知道“Avg_Sale_Amount”列是否在原始数据中。如果是,只需将其包含在使用Select attributes操作符选择的属性列表中。并将角色设置为标签(就像您在流程的培训部分所做的那样)。
如果它不是测试数据的一部分,那么…它实际上不是测试数据:-)测试数据集的思想是你有真正的标签,这样你就可以与预测进行比较。如果你不知道真相,那就没有什么可比较的了。
在这种情况下,暂时忘掉您的“测试”数据,只需使用split data操作符对训练数据进行分割,以实际创建您的测试数据集(包括标签列!)另外,你也可以使用交叉验证等验证操作符。
如果你现在还不清楚,我建议你在屏幕右上角“教程”下的“Need Help?”菜单中找到RapidMiner做教程。我特别推荐“建模、评分和验证”一节中的教程。
希望这有助于
Ingo
为了构建模型,您需要一个带有标签(= attribud标记为角色标签)和其他常规属性的数据集。
应用模型接受一个带有或不带有标签(标签被忽略)但所有必要的常规属性的数据集。
然后添加一个预测列和角色预测.
对于性能操作符,你显然需要标签和预测,这是比较来决定机器学习性能。如果只是进行预测,您不需要新数据集中的标签,您可以从应用模型获得预测。
问候,
Balazs