如何使汽车模型做交叉验证?

wanglu2014wanglu2014 成员职位:19因素二世
2019年6月编辑 帮助

谢谢你的关注。在自动模型中,导入的数据按比例分成训练和验证两部分。但是,为了提高模型的可靠性,是否可以将分裂过程修改为交叉验证?

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    当然,只需打开您想要的模型的流程,然后将流程从分离验证更改为交叉验证并重新运行。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入数据科学咨询由认证的RapidMiner专家
    sgenzer dbabrauskaite Balazs_Hamornik
  • 开罗的开罗的 成员职位:1贡献我
    2019年3月编辑
    对不起@Telcontar120,我有同样的问题,不明白从哪里把流程从分开验证改为交叉验证?很抱歉,我还是RapidMiner的初学者。我发现了分割数据块,你是这个意思吗?如果是这样,如何分割数据,例如,在k-fold交叉验证中,k=4 ?
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    不,我的意思是,一旦您拥有了流程,您就可以选择分割验证操作符,并将其替换为交叉验证操作符。这可以通过右键单击拆分验证操作符来完成,或者手动复制新的交叉验证操作符,将拆分验证中的操作符复制到交叉验证中,然后删除拆分验证操作符。同样的结果。在这两种情况下,只需确保正确地连接了内部操作符。如果需要再次检查,请参阅帮助中的交叉验证教程。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入数据科学咨询由认证的RapidMiner专家
    dbabrauskaite
  • rfuentealbarfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    你好,

    今天我向一位新同事展示了RapidMiner自动模型。与《泰坦尼克号》数据集,如果您选择逻辑回归(这是我记得的情况,但可能还有很多其他的情况)没有这样的事情分割验证操作符。相反,该进程执行分割数据运算符,并应用性能作为最后的运算符,我称之为手册 执行验证的方法。

    在这种情况下,并不像更改操作符那么简单。(不过,其他公司也是如此)。

    我的建议是重新排序过程,并理解它是如何工作的,因为虽然autommodel是数据科学项目的一个很好的开始,但它仍然是一个开始:我们的项目仍然缺乏适当的文档(它仍然不能为我们的领域专业知识生成文档),删除样板步骤(如果我们的数据集没有文本,为乐鱼平台进入什么要处理文本?),并根据我们的用例调整过程。

    我知道,这不是那种神奇地解决我们问题的快乐答案,不得不经历这个过程对RapidMiner的新手来说尤其令人沮丧,但请专注于RapidMiner 有一个#noblackboxes哲学,允许人们通过访问流程来在几秒钟内从0到60。

    @Telcontar120你是不是和我一样有似曾相识的感觉?这不是我们见面时的话题吗?)

    希望这能有所帮助,

    罗德里戈。
    开罗的 dbabrauskaite Telcontar120 yyhuang
  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区管理员、rmresearch研究员、成员、大学教授职位:1751年RM创始人
    是的,没错。顺便说一下,我们如何在AM中做性能估计的方式实际上是相当聪明的。交叉验证是一种更健壮的估计器的原因是,它减少了对测试集的依赖,使训练过的模型变得“更容易”或“更难”。我们在AM中做了类似的事情,在大多数数据上训练一个模型,然后在平均之前删除异常值的同时创建多个保留集。在超过1000行的80多个数据集上,我只发现了两个例子,其中这种方法与完全交叉验证创建的性能之间的差异在统计上是显著的。因此,对于所有实际目的,特别是在数据科学项目的早期阶段,AM的验证方法几乎与完全交叉验证一样好,但速度快5 - 10倍。乐鱼平台进入
    不要误解我的意思,我并不是反对交叉验证,恰恰相反。我只是想指出,我们提出了一种实用的方法,更好地平衡运行时和估计鲁棒性,根据我的经验,这对大多数应用程序来说都足够好。
    只有2c,
    Ingo
    varunm1 dbabrauskaite SGolbert sgenzer
  • varunm1varunm1 主持人,职位:1207年独角兽
    2019年3月编辑
    @IngoRM看起来不错。对于巨大的数据集,这种方法在AM工作就像一块宝石,也似乎是可靠的基于你的测试。我有点困惑,为什么你在随机分割数据的过程中使用了坚持集。现在很清楚了。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施,保持社交距离

    IngoRM
  • SGolbertSGolbert RapidMiner认证分析师,会员职位:344独角兽
    @IngoRM

    很高兴知道你彻底调查了这件事,我现在更加相信你了。

    我认为一旦在AM中找到了一个足够的模型,就应该在一个新的过程中用所有的数据训练一个新模型,可能是用超参数调优。

    问候,
    塞巴斯蒂安。

    IngoRM sgenzer
  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区管理员、rmresearch研究员、成员、大学教授职位:1751年RM创始人
    实际上,我们正在研究一个新的自动模型部署功能,以简化再培训等过程。敬请期待;-)
    SGolbert sgenzer 阴
  • 阴 成员职位:14贡献我
    @IngoRM我看到你的帖子是2019年的,这已经实施了吗?
登录注册置评。