过拟合问题

SimonKSimonK 成员职位:20.贡献我
你好,

我有过拟合的问题。
它是一个包含8个标签值和6个属性的分类,每个属性值约为550万个。
通过10次交叉验证,我的决策树达到了93%左右的准确率。不幸的是,当我将模型应用于新数据时,我只能得到33%的测试精度。
谁能告诉我如何防止训练数据的过拟合?

我为决策树选择了以下参数:

标准:信息增益
最大深度:30
修剪:是的
信心:0.24
进行预修剪:是的
最小增益:0.0
最小叶大小:1
狭缝的最小尺寸:1
预修剪选项数:0

问候

西蒙

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3297年RM数据科学家
    你好,
    数据中是否存在重复或伪重复?

    假设您有物品的生产数据,并且物品是分批创建的。同一台机器的两件物品实际上是一样的。交叉验证可能会把它们分成训练集和测试集,这样你就“愚弄”了你的验证。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • SimonKSimonK 成员职位:20.贡献我
    你好@mschmitz

    我的项目是关于燃烧的。这个模型是用来预测排放量的。有些操作条件很可能不止一次出现。
    删除重复操作符在这里有帮助吗?

    问候

    西蒙
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3297年RM数据科学家
    @SimonK
    很难说。你是否有一个以上的内燃机/设备,而你的测试装置是不同的发动机?这就解释得通了,因为你的模型可能与引擎过度吻合了。
    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • SimonKSimonK 成员职位:20.贡献我
    @mschmitz

    不,这是垃圾燃烧。
    我使用2010 - 2020年的数据作为训练数据,2021年的数据作为测试数据。
    我还尝试只用2/3的训练数据来训练模型,并用剩下的1/3进行测试(排除自2021年以来该过程中发生的变化),但结果相同(测试精度低)。

    问候

    西蒙
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3297年RM数据科学家
    你好,
    也许你可以看看我以前的一篇博文:https://towardsdatascience.com/when-cross-validation-fails-9bd5a57f07b5可能就是这样。

    最好的
    马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • SimonKSimonK 成员职位:20.贡献我
    @mschmitz

    我现在已经进行了一批交叉验证,但结果相同。
    我已经将我的训练数据集(1),我的测试数据集(2)附加到这个和我的过程的XML。6个属性(a1-a6)用于构建模型(决策树)来预测标签。我得到了92.33%的验证精度,但只有37%的测试精度。
    有没有别的方法可以避免过度拟合?

    问候

    西蒙

    < ?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.9.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文
    <过程扩展= " true " >
    < /操作符>
    <列出关键= " set_additional_roles " / >
    < /操作符>
    < /操作符>
    <过程扩展= " true " >
    < /操作符>
    > < /过程
    <过程扩展= " true " >
    <列出关键= " application_parameters " / >
    < /操作符>
    < /操作符>
    > < /过程
    < /操作符>
    < /操作符>
    <列出关键= " set_additional_roles " / >
    < /操作符>
    > < /过程
    < /操作符>
    > < /过程

    2. csv 791.2 k
    1. csv 10.8米
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3297年RM数据科学家
    在我们深入讨论之前:您确定您的测试集和训练集来自相同的分布吗?

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • SimonKSimonK 成员职位:20.贡献我
    是的,它们绝对来自同一个分布。

    问候

    西蒙
登录注册置评。