抽样(平衡)和交叉验证

SimonW18272SimonW18272 成员职位:13新手
2022年2月编辑 帮助
嘿,大家好,我想训练一个决策树模型,我已经使用了交叉验证算子来训练我的模型。然而,我还需要平衡我的数据,因为我有两个类,其中一个表示的次数要少得多。我现在关心的是如何使用抽样算子。我知道如何使用它来平衡我的数据,我更想知道如果我把采样算子放入交叉验证算子的子过程中,或者如果我也可以在之前平衡数据集,这是否重要。我在某个地方看到,在交叉验证操作符中使用抽样操作符是典型的,而且更好,因为否则一些数据点会超出范围。但是这真的很重要吗,因为如果我再想一遍,它对我来说就没有那么大的意义了,不管我是在之前还是之后使用样本。有人能给我一个答案吗?

答案

  • SimonW18272SimonW18272 成员职位:13新手
    我的意思是,我首先理解了为什么它是有意义的,但现在我很困惑,因为当我更详细地考虑它时,当我使用k折叠交叉验证时,它应该无关紧要。
    因为如果我有一个数据集,让我们说80/20是类的比例,我在交叉验证之前或中减少它,不应该产生差异,还是我错了?
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:875独角兽
    嗨!

    如果您将采样操作符放入交叉验证(在构建模型之前放入左侧面板),您将获得两个好处:
    1.模型将在平衡数据上学习
    2.采样不会影响测试集(验证中右边的那个),因此您可以在所有数据上验证模型。

    抽样是用来改进模型的。因此,进行交叉验证是有意义的。在进行交叉验证时,您不仅要验证模型:目标是验证导致构建模型的整个过程。抽样是其中的一部分。

    在交叉验证之前减少数据会让您对整个过程的结果产生错误的印象。您希望从平衡数据构建模型,但如果底层数据集从根本上是不平衡的,那么您应该以这种方式验证它。验证前的平衡将为您提供对人工平衡数据集的验证结果。

    问候,
    Balazs
    SimonW18272
  • SimonW18272SimonW18272 成员职位:13新手
    非常感谢你,Balaz,现在对我来说更有意义了!!
登录注册置评。