汽车模型中的模拟器和测试训练数据
Chemical_eng
成员职位:16因素二世
在帮助
你好,
我正在使用autommodel。我有几个问题:
1.模拟器是基于测试数据、训练数据还是全部数据?
2.我如何确保我的测试数据集是平衡的,我有很多分类变量,我如何确保测试数据集是平衡的?
3.我可以看到训练和测试错误率的指标吗?我想我只是为了测试才看的。
谢谢
我正在使用autommodel。我有几个问题:
1.模拟器是基于测试数据、训练数据还是全部数据?
2.我如何确保我的测试数据集是平衡的,我有很多分类变量,我如何确保测试数据集是平衡的?
3.我可以看到训练和测试错误率的指标吗?我想我只是为了测试才看的。
谢谢
标记:
0
最好的答案
-
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家
1.模拟器基本上不使用这两种数据集。它最终将模型应用于您配置的数据集。数据仅用于确定最小值和最大值。
2.通常你不会平衡属性,而只会平衡标签?你可以通过改变成本/收益矩阵来做到这一点3.只报告测试错误率,因为列车错误率很少有任何用处。
BR,马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德0 -
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德0
答案
3.我想把火车数据集的误差与过拟合/欠拟合的测试进行比较,但没关系。
还有另一个问题:1。当我在相同的数据集中运行训练算法时,我得到了不同的结果,我认为这是因为算法参数的随机误差或通过选择训练-测试分裂的数据。我正在使用模型进行优化,我看到每次训练它都会给我不同的建议,关于如何保持模型固定的任何想法?我们可以固定这些随机参数或者选择平均或最佳组合吗?