嘿,大家好,我想训练一个决策树模型,我已经使用了交叉验证算子来训练我的模型。然而,我还需要平衡我的数据,因为我有两个类,其中一个表示的次数要少得多。我现在关心的是如何使用抽样算子。我知道如何使用它来平衡我的数据,我更想知道如果我把采样算子放入交叉验证算子的子过程中,或者如果我也可以在之前平衡数据集,这是否重要。我在某个地方看到,在交叉验证操作符中使用抽样操作符是典型的,而且更好,因为否则一些数据点会超出范围。但是这真的很重要吗,因为如果我再想一遍,它对我来说就没有那么大的意义了,不管我是在之前还是之后使用样本。有人能给我一个答案吗?
0
答案
如果您将采样操作符放入交叉验证(在构建模型之前放入左侧面板),您将获得两个好处:
1.模型将在平衡数据上学习
2.采样不会影响测试集(验证中右边的那个),因此您可以在所有数据上验证模型。
抽样是用来改进模型的。因此,进行交叉验证是有意义的。在进行交叉验证时,您不仅要验证模型:目标是验证导致构建模型的整个过程。抽样是其中的一部分。
在交叉验证之前减少数据会让您对整个过程的结果产生错误的印象。您希望从平衡数据构建模型,但如果底层数据集从根本上是不平衡的,那么您应该以这种方式验证它。验证前的平衡将为您提供对人工平衡数据集的验证结果。
问候,
Balazs