用非常大的数据建模决策树?
最佳答案
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
一些额外的想法:
- 根据我的经验,分割的最小增益是一个关键的预修剪参数,所以你可能想要尝试更大的范围,看看它是如何影响你的树的
- 如果您的名义属性有许多不同的值,则应该考虑对这些值进行合并或聚合,因为过多的单个值可能导致任何特定值的计数过低
- 如果平坦的决策树不能很好地工作,你可以考虑基于随机森林或梯度增强树等树的集成模型
2
答案
嘿@eldenoso我看到你试图通过离散化特征来减少特征。您是否也尝试调整修剪和预修剪参数?
Thomas,谢谢你的回复!
是的,我使用了所有三个参数(置信度,最小叶大小,最小叶大小),但我不能像这个巨大的例子那样想出一些有用的或“易于阅读”的东西。
您是否更改了树的深度参数?默认值是20,非常大,我通常设置为5。
最小叶和最小待分裂叶都是非常重要的预修剪参数。我会尝试把这些值提高到比现在更大的值。
你好,
我支持布莱恩的观点。决策树是一个很好的工具,可以用来开始并保持对模型的理解。但我认为你遇到了用一棵树所能做的限制。想想深度为5的树如何切入超空间的局限性吧。这不能很详细的分类。
我建议你先试试随机森林,然后再试试。你失去了可解释性,但获得了预测性能。
最好的
马丁
德国多特蒙德
谢谢大家的帮助!
我把你所有的优化都集成到我的流程中了。为了使树更“可读”,我设置了不同的预剪枝参数(最小增益0.01,而且我将一般置信度设置为0.25)。此外,由于我的标签由近20个不同的名字组成,我试图将它们分为两组,我认为这两组对我的树影响最大。积极地说,准确率没有下降。相反,它增加了(x-Validation 82%)。
所以简单地说,我有一棵可以使用的树!
再次感谢您的回答!
问候,
菲利普