决策树给出了不可能的结果
我刚刚用决策树训练了一台机器,它达到了99.7%的f分。
这听起来不错,但你听到朴素贝叶斯只得到66.4%
我在数据集中发现的最高分是使用深度学习的98.2%
我在数据集中发现的最高可信分数是78.5%
这个设计是基于这个视频:
我所做的就是用决策树操作符替换交叉验证中的朴素贝叶斯操作符。
即使有10倍的交叉验证,我也不会得到超过70%的结果。
高分的直接原因是,由于某种原因,标签和id之间存在很强的相关性,但我不知道如何限制算法使用哪些列。
问题是,我做错了什么?我该如何弥补?
0
最佳答案
-
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3297年RM数据科学家通常这只是因为两个类的两个集合被追加了。所以数据集的前半部分为真,后半部分为假?
否则:通常id与日期相关,而日期与标签相关。
您要做的是使用Select Attributes并删除id或set role并将id的角色设置为id。
最好的马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德0
答案
德国多特蒙德
看看决策树。也许您在数据中留下了一个与标签密切相关的属性,但在将来的数据中不可用。
树是复杂的吗?决策是否显而易见?
您可以在流程的各个部分设置断点(我尝试使用Decision Tree和Performance),以查看不同的验证步骤。
问候,
Balazs
如果再次发生这种情况,请查看逐步执行的结果。如果您得到一个非常简单的树,或者在不同的执行中产生了令人难以置信的性能,那么断点可以帮助您识别问题。
有时多个属性一起与结果相关,而不是单独关联。决策树可能更擅长捕捉这些情况。
问候,
Balazs
那不是真的。特别是NB算法可以很快被其他“噪声”属性混淆。这对于决策树来说是不正确的。
德国多特蒙德