汽车模型中的模拟器和测试训练数据

Chemical_engChemical_eng 成员职位:16因素二世
你好,
我正在使用autommodel。我有几个问题:
1.模拟器是基于测试数据、训练数据还是全部数据?
2.我如何确保我的测试数据集是平衡的,我有很多分类变量,我如何确保测试数据集是平衡的?
3.我可以看到训练和测试错误率的指标吗?我想我只是为了测试才看的。

谢谢
标记:

最好的答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家
    解决方案接受

    1.模拟器基本上不使用这两种数据集。它最终将模型应用于您配置的数据集。数据仅用于确定最小值和最大值。
    2.通常你不会平衡属性,而只会平衡标签?你可以通过改变成本/收益矩阵来做到这一点
    3.只报告测试错误率,因为列车错误率很少有任何用处。

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家
    解决方案接受
    我想并不是所有的随机种子都被设置为固定的种子,所以分裂和某些算法中的随机性(或并行计算引入的随机性)确实会稍微改变结果。

    结果应该不会有太大差别,对吧?

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德

答案

  • Chemical_engChemical_eng 成员职位:16因素二世
    你好,谢谢你的回答。以下是一些评论:我的标签是连续的,所以我有一个回归问题。更像是我有一些带有分类变量的输入,它们不是均匀分布的,所以更能确保测试集代表这些输入。

    3.我想把火车数据集的误差与过拟合/欠拟合的测试进行比较,但没关系。

    还有另一个问题:1。当我在相同的数据集中运行训练算法时,我得到了不同的结果,我认为这是因为算法参数的随机误差或通过选择训练-测试分裂的数据。我正在使用模型进行优化,我看到每次训练它都会给我不同的建议,关于如何保持模型固定的任何想法?我们可以固定这些随机参数或者选择平均或最佳组合吗?
  • Chemical_engChemical_eng 成员职位:16因素二世
    当我们做优化时,它们确实有一些显著的不同,我认为这个问题很复杂,所以也许我们需要一些额外的建议。
登录注册置评。