过拟合问题

SimonK · 2021年4月

你好,

我有过拟合的问题。

它是一个包含8个标签值和6个属性的分类，每个属性值约为550万个。

通过10次交叉验证，我的决策树达到了93%左右的准确率。不幸的是，当我将模型应用于新数据时，我只能得到33%的测试精度。

谁能告诉我如何防止训练数据的过拟合?

我为决策树选择了以下参数:

标准:信息增益

最大深度:30

修剪:是的

信心:0.24

进行预修剪:是的

最小增益:0.0

最小叶大小:1

狭缝的最小尺寸:1

预修剪选项数:0

问候

西蒙

MartinLiebig · 2021年4月

你好,

数据中是否存在重复或伪重复?

假设您有物品的生产数据，并且物品是分批创建的。同一台机器的两件物品实际上是一样的。交叉验证可能会把它们分成训练集和测试集，这样你就“愚弄”了你的验证。

最好的

马丁

SimonK · 2021年4月

你好@mschmitz，

我的项目是关于燃烧的。这个模型是用来预测排放量的。有些操作条件很可能不止一次出现。

删除重复操作符在这里有帮助吗?

问候

西蒙

MartinLiebig · 2021年4月

嗨@SimonK，

很难说。你是否有一个以上的内燃机/设备，而你的测试装置是不同的发动机?这就解释得通了，因为你的模型可能与引擎过度吻合了。

最好的

马丁

SimonK · 2021年4月

@mschmitz

不，这是垃圾燃烧。

我使用2010 - 2020年的数据作为训练数据，2021年的数据作为测试数据。

我还尝试只用2/3的训练数据来训练模型，并用剩下的1/3进行测试(排除自2021年以来该过程中发生的变化)，但结果相同(测试精度低)。

问候

西蒙

MartinLiebig · 2021年4月

你好,

也许你可以看看我以前的一篇博文:https://towardsdatascience.com/when-cross-validation-fails-9bd5a57f07b5可能就是这样。

最好的

马丁

SimonK · 2021年5月

嗨@mschmitz

我现在已经进行了一批交叉验证，但结果相同。

我已经将我的训练数据集(1)，我的测试数据集(2)附加到这个和我的过程的XML。6个属性(a1-a6)用于构建模型(决策树)来预测标签。我得到了92.33%的验证精度，但只有37%的测试精度。

有没有别的方法可以避免过度拟合?

问候

西蒙

< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.9.000”>

> <上下文

<输入/ >

<输出/ >

<宏/ >

> < /上下文

<过程扩展= " true " >

< /操作符>

<列出关键= " set_additional_roles " / >

< /操作符>

<过程扩展= " true " >

< /操作符>

> < /过程

<过程扩展= " true " >

<列出关键= " application_parameters " / >

< /操作符>

> < /过程

< /操作符>

<列出关键= " set_additional_roles " / >

< /操作符>

> < /过程

< /操作符>

> < /过程

MartinLiebig · 2021年5月

在我们深入讨论之前:您确定您的测试集和训练集来自相同的分布吗?

最好的

马丁

SimonK · 2021年5月

是的，它们绝对来自同一个分布。

问候

西蒙

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

过拟合问题

答案