用非常大的数据建模决策树?

eldenoso · 2017年6月

你好altogehter,

目前我正在尝试用大数据创建决策树模型。出现的问题是，决策树要么太大(宽)，要么太小，从而导致准确率低，无法识别连接。我已经尝试过做不同的事情，比如离散数字属性等。但它不会很好地工作。大多数属性都是标称类型，只有一个是数值类型。与泰坦尼克的例子相反，我没有“是/否”的标签。我已经想到这可能会导致问题。

谢谢你的帮助!

菲利普

Telcontar120 · 2017年6月

一些额外的想法:

根据我的经验，分割的最小增益是一个关键的预修剪参数，所以你可能想要尝试更大的范围，看看它是如何影响你的树的
如果您的名义属性有许多不同的值，则应该考虑对这些值进行合并或聚合，因为过多的单个值可能导致任何特定值的计数过低
如果平坦的决策树不能很好地工作，你可以考虑基于随机森林或梯度增强树等树的集成模型

Thomas_Ott · 2017年6月

嘿@eldenoso我看到你试图通过离散化特征来减少特征。您是否也尝试调整修剪和预修剪参数?

eldenoso · 2017年6月

Thomas，谢谢你的回复!

是的，我使用了所有三个参数(置信度，最小叶大小，最小叶大小)，但我不能像这个巨大的例子那样想出一些有用的或“易于阅读”的东西。

Thomas_Ott · 2017年6月

您是否更改了树的深度参数?默认值是20，非常大，我通常设置为5。

最小叶和最小待分裂叶都是非常重要的预修剪参数。我会尝试把这些值提高到比现在更大的值。

MartinLiebig · 2017年6月

你好,

我支持布莱恩的观点。决策树是一个很好的工具，可以用来开始并保持对模型的理解。但我认为你遇到了用一棵树所能做的限制。想想深度为5的树如何切入超空间的局限性吧。这不能很详细的分类。

我建议你先试试随机森林，然后再试试。你失去了可解释性，但获得了预测性能。

最好的

马丁

eldenoso · 2017年6月

谢谢大家的帮助!

我把你所有的优化都集成到我的流程中了。为了使树更“可读”，我设置了不同的预剪枝参数(最小增益0.01，而且我将一般置信度设置为0.25)。此外，由于我的标签由近20个不同的名字组成，我试图将它们分为两组，我认为这两组对我的树影响最大。积极地说，准确率没有下降。相反，它增加了(x-Validation 82%)。

所以简单地说，我有一棵可以使用的树!

再次感谢您的回答!

问候,

菲利普

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

用非常大的数据建模决策树?

最佳答案

答案