关于评分数据集和训练数据集的理想比率

AbiAbi 成员职位:1贡献我

就像训练和测试的70 - 30比率一样,训练和评分的数据集是否有一个建议的比率?

(这是为了将训练数据减少到最佳得分的正确比例)

标记:

最好的答案

答案

  • hbajpaihbajpai 成员职位:102独角兽
    @Abi

    典型的评分是实时的而不是批量的。我想你指的是培训、开发/保留和测试集比率。经验法则是,如果行数小于100k,它可能是60% 20% 20%或70% 15% 15%。但如果你有100万或更多行,它可能是98% 1% 1%甚至99.5% 0.4% 0 1%。

    至于减少总行数,一个技巧是在对最终模型进行验证后,用整个数据训练模型。


    最好的
    Harshit
    varunm1 lionelderkrikor Abi
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    典型的评分是实时的而不是批量的。
    在这一点上我要向你提出质疑。在客户分析中,通常每天/每周做一次评分就可以了。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    hbajpai
  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年4月编辑
    完全同意@Telcontar120在简历上。如果由于时间限制、大量数据或特定需求而无法实现CV,则可以使用类似于AM的其他验证
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    MartinLiebig lionelderkrikor
登录注册置评。