自动模型数据集分割使用选择(如线性抽样)

tomMEMtomMEM 成员职位:15因素二世
你好,我想知道是否有可能在模块“Auto Model”中指示训练和测试数据集生成的线性抽样分割。
不知怎么的,预测值太好了,所以对于我的数据集来说,使用线性抽样来分割数据集会更好。
当然,在Auto Model使用存储过程之后也可以这样做,但是为了让人信服,最好选择第一手资料。
谢谢你!
标记:

最佳答案

  • ceaperezceaperez 成员职位:434独角兽
    解决方案接受
    @behnish
    Auto模型使用ML的标准良好实践自动执行许多操作。使用这些良好实践创建的每个模型都有许多参数,并且无法从面板中管理。
    最好的解决方案是运行Auto模型,然后进入模型并对其进行调整

    的问候。

答案

  • tomMEMtomMEM 成员职位:15因素二世
    你好@ceaperez,感谢您的及时回复。事实上,Auto模型提供了关于模型和特性集的一个很好的概述。那就这样做吧——之后再进行调整。
    最好的T
  • tomMEMtomMEM 成员职位:15因素二世

    你好,看起来Auto模型被设计成在整个样本集范围内以0.6比0.4的比例提取交错的训练集和测试集。这个模型用我的数据集给出了一个很好的回归。

    使用线性采样(0.9 -0.1)创建基于训练和测试数据集的模型导致性能下降约4倍。这表明该模型需要进一步的步骤来获得更多的泛化和训练集准备的重要性。

    因此,在Auto模型中有一个数据集分割的选择是很好的。

    此外,如何进一步优化模型,使其更加一般化也是一个问题。一种方法是使用各种数据集分割来运行模型,以优化模型参数,或者在数据中添加随机噪声水平,就像在图像识别方法中一样。


    ceaperez
登录注册置评。