汽车模型中的模拟器和测试训练数据

Chemical_eng · 2022年6月

你好,
我正在使用autommodel。我有几个问题:
1.模拟器是基于测试数据、训练数据还是全部数据?
2.我如何确保我的测试数据集是平衡的，我有很多分类变量，我如何确保测试数据集是平衡的?
3.我可以看到训练和测试错误率的指标吗?我想我只是为了测试才看的。

谢谢

MartinLiebig · 2022年6月

嗨@Chemical_eng，

1.模拟器基本上不使用这两种数据集。它最终将模型应用于您配置的数据集。数据仅用于确定最小值和最大值。

2.通常你不会平衡属性，而只会平衡标签?你可以通过改变成本/收益矩阵来做到这一点

3.只报告测试错误率，因为列车错误率很少有任何用处。

BR,

马丁

MartinLiebig · 2022年6月

嗨@Chemical_eng，

我想并不是所有的随机种子都被设置为固定的种子，所以分裂和某些算法中的随机性(或并行计算引入的随机性)确实会稍微改变结果。

结果应该不会有太大差别，对吧?

BR,

马丁

Chemical_eng · 2022年6月

你好，谢谢你的回答。以下是一些评论:我的标签是连续的，所以我有一个回归问题。更像是我有一些带有分类变量的输入，它们不是均匀分布的，所以更能确保测试集代表这些输入。

3.我想把火车数据集的误差与过拟合/欠拟合的测试进行比较，但没关系。

还有另一个问题:1。当我在相同的数据集中运行训练算法时，我得到了不同的结果，我认为这是因为算法参数的随机误差或通过选择训练-测试分裂的数据。我正在使用模型进行优化，我看到每次训练它都会给我不同的建议，关于如何保持模型固定的任何想法?我们可以固定这些随机参数或者选择平均或最佳组合吗?

Chemical_eng · 2022年6月

当我们做优化时，它们确实有一些显著的不同，我认为这个问题很复杂，所以也许我们需要一些额外的建议。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

汽车模型中的模拟器和测试训练数据

最好的答案

答案