关于评分数据集和训练数据集的理想比率
最好的答案
-
Telcontar120 版主,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽理想的比率是使用交叉验证。这被认为是验证的“黄金标准”是有原因的。这种方法确保在培训和测试中使用了100%的数据。否则你就会从你的训练集和测试集中的记录的随机效应中产生偏见。
我理解为什么autommodel选择实现一种形式的分离验证,这主要是为了节省处理时间。对于这样一个自动化工具来说,这可能是一个明智的选择,因为它被设计成可以处理用户可能选择使用的几乎任何大小的数据集。它也有可能做许多其他复杂的事情,如功能工程和功能选择,因此必须削减一些角落,以充分利用用户愿意等待输出的整体时间。
然而,如果您正在手动执行自己的流程,并且可以选择以任何您喜欢的方式设置它,那么您的默认值可能应该是进行交叉验证,只有在您有特定的需要时才会偏离它。如果您有大量的数据,并且还要做许多其他复杂的事情,那么可能最好进行分离验证。但是如果你有更小的数据集,或者你可以投入更多的时间在模型预处理和处理上,那么交叉验证才是真正的方法。10
答案
典型的评分是实时的而不是批量的。我想你指的是培训、开发/保留和测试集比率。经验法则是,如果行数小于100k,它可能是60% 20% 20%或70% 15% 15%。但如果你有100万或更多行,它可能是98% 1% 1%甚至99.5% 0.4% 0 1%。
至于减少总行数,一个技巧是在对最终模型进行验证后,用整个数据训练模型。
Harshit
德国多特蒙德
Varun
https://www.varunmandalapu.com/
是安全的。遵循预防措施并保持社交距离