登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.2 k
所有类别
19.3 k
帮助
442
知识库
RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
过拟合问题
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问问题
寻找有用的视频
首页
;
帮助
过拟合问题
SimonK
成员
职位:
20.
贡献我
2021年4月
在
帮助
你好,
我有过拟合的问题。
它是一个包含8个标签值和6个属性的分类,每个属性值约为550万个。
通过10次交叉验证,我的决策树达到了93%左右的准确率。不幸的是,当我将模型应用于新数据时,我只能得到33%的测试精度。
谁能告诉我如何防止训练数据的过拟合?
我为决策树选择了以下参数:
标准:信息增益
最大深度:30
修剪:是的
信心:0.24
进行预修剪:是的
最小增益:0.0
最小叶大小:1
狭缝的最小尺寸:1
预修剪选项数:0
问候
西蒙
标记:
分类
决策树
交叉验证
0
答案
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授
职位:
3297年
RM数据科学家
2021年4月
你好,
数据中是否存在重复或伪重复?
假设您有物品的生产数据,并且物品是分批创建的。同一台机器的两件物品实际上是一样的。交叉验证可能会把它们分成训练集和测试集,这样你就“愚弄”了你的验证。
最好的
马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
0
SimonK
成员
职位:
20.
贡献我
2021年4月
你好
@mschmitz
,
我的项目是关于燃烧的。这个模型是用来预测排放量的。有些操作条件很可能不止一次出现。
删除重复操作符在这里有帮助吗?
问候
西蒙
0
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授
职位:
3297年
RM数据科学家
2021年4月
嗨
@SimonK
,
很难说。你是否有一个以上的内燃机/设备,而你的测试装置是不同的发动机?这就解释得通了,因为你的模型可能与引擎过度吻合了。
最好的
马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
0
SimonK
成员
职位:
20.
贡献我
2021年4月
@mschmitz
不,这是垃圾燃烧。
我使用2010 - 2020年的数据作为训练数据,2021年的数据作为测试数据。
我还尝试只用2/3的训练数据来训练模型,并用剩下的1/3进行测试(排除自2021年以来该过程中发生的变化),但结果相同(测试精度低)。
问候
西蒙
0
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授
职位:
3297年
RM数据科学家
2021年4月
你好,
也许你可以看看我以前的一篇博文:
https://towardsdatascience.com/when-cross-validation-fails-9bd5a57f07b5
可能就是这样。
最好的
马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
0
SimonK
成员
职位:
20.
贡献我
2021年5月
嗨
@mschmitz
我现在已经进行了一批交叉验证,但结果相同。
我已经将我的训练数据集(1),我的测试数据集(2)附加到这个和我的过程的XML。6个属性(a1-a6)用于构建模型(决策树)来预测标签。我得到了92.33%的验证精度,但只有37%的测试精度。
有没有别的方法可以避免过度拟合?
问候
西蒙
< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.9.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
< /操作符>
<列出关键= " set_additional_roles " / >
< /操作符>
< /操作符>
<过程扩展= " true " >
< /操作符>
> < /过程
<过程扩展= " true " >
<列出关键= " application_parameters " / >
< /操作符>
< /操作符>
> < /过程
< /操作符>
< /操作符>
<列出关键= " set_additional_roles " / >
< /操作符>
> < /过程
< /操作符>
> < /过程
2. csv
791.2 k
1. csv
10.8米
0
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授
职位:
3297年
RM数据科学家
2021年5月
在我们深入讨论之前:您确定您的测试集和训练集来自相同的分布吗?
最好的
马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
0
SimonK
成员
职位:
20.
贡献我
2021年5月
是的,它们绝对来自同一个分布。
问候
西蒙
0
登录
或
注册
置评。
答案
德国多特蒙德
德国多特蒙德
德国多特蒙德
我现在已经进行了一批交叉验证,但结果相同。
德国多特蒙德