用非常大的数据建模决策树?

eldenosoeldenoso 成员职位:65贡献我
2018年12月编辑 帮助

你好altogehter,

目前我正在尝试用大数据创建决策树模型。出现的问题是,决策树要么太大(宽),要么太小,从而导致准确率低,无法识别连接。我已经尝试过做不同的事情,比如离散数字属性等。但它不会很好地工作。大多数属性都是标称类型,只有一个是数值类型。与泰坦尼克的例子相反,我没有“是/否”的标签。我已经想到这可能会导致问题。

谢谢你的帮助!:)

菲利普

标记:

最佳答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受

    一些额外的想法:

    1. 根据我的经验,分割的最小增益是一个关键的预修剪参数,所以你可能想要尝试更大的范围,看看它是如何影响你的树的
    2. 如果您的名义属性有许多不同的值,则应该考虑对这些值进行合并或聚合,因为过多的单个值可能导致任何特定值的计数过低
    3. 如果平坦的决策树不能很好地工作,你可以考虑基于随机森林或梯度增强树等树的集成模型

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    Thomas_Ott eldenoso

答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    @eldenoso我看到你试图通过离散化特征来减少特征。您是否也尝试调整修剪和预修剪参数?

  • eldenosoeldenoso 成员职位:65贡献我

    Thomas,谢谢你的回复!

    是的,我使用了所有三个参数(置信度,最小叶大小,最小叶大小),但我不能像这个巨大的例子那样想出一些有用的或“易于阅读”的东西。


  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    您是否更改了树的深度参数?默认值是20,非常大,我通常设置为5。

    最小叶和最小待分裂叶都是非常重要的预修剪参数。我会尝试把这些值提高到比现在更大的值。

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家

    你好,

    我支持布莱恩的观点。决策树是一个很好的工具,可以用来开始并保持对模型的理解。但我认为你遇到了用一棵树所能做的限制。想想深度为5的树如何切入超空间的局限性吧。这不能很详细的分类。

    我建议你先试试随机森林,然后再试试。你失去了可解释性,但获得了预测性能。

    最好的

    马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    eldenoso
  • eldenosoeldenoso 成员职位:65贡献我

    谢谢大家的帮助!

    我把你所有的优化都集成到我的流程中了。为了使树更“可读”,我设置了不同的预剪枝参数(最小增益0.01,而且我将一般置信度设置为0.25)。此外,由于我的标签由近20个不同的名字组成,我试图将它们分为两组,我认为这两组对我的树影响最大。积极地说,准确率没有下降。相反,它增加了(x-Validation 82%)。

    所以简单地说,我有一棵可以使用的树!:)

    再次感谢您的回答!

    问候,

    菲利普

    Thomas_Ott
登录注册置评。