在做决策树之前如何减少变量?

Matt_PilkMatt_Pilk 成员职位:4新手
嗨!
只是需要一些帮助。
1)在执行决策树分析之前,是否需要减少变量的数量?目前,我有19个。这使得决策树很难阅读,因为我需要去12层才能获得准确性。

2)如果我在做了一些EDA之后对那些我认为重要的属性使用选择属性,这会稀释结果吗?或者你可以通过原始数据集传递决策树吗?

来自社区的任何见解都很棒。

谢谢,
马太福音
标记:

最好的答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:911独角兽
    解决方案接受
    嗨!

    基于决策树的方法都是关于选择相关属性的。如果您之前删除了属性,那么树就会发生变化,这些属性将是相关的,您的树可能会变得更糟。如果树没有改变,则删除实际上找到了不相关的属性,但无论如何,这都是通过决策树的情况。

    对你的属性进行评估并检查它们是否有有害的东西,比如“未来的”知识泄漏到模型中,或者很难获得数据,或者属性有许多缺失值,这是一个好主意。您可以手动删除这些。但是,在使用任何选择或权重属性本身的方法之前,您不应该基于“我认为这些属性不相关”而删除属性。这将是“部分人类,部分机器学习”,很难从这个过程中获得比为这个任务编写的算法更好的结果。

    如果您的决策树很难解释,并且可解释性是比准确性更重要的目标,那么最好将修剪参数更改为更严格的值。这将为您提供一个更小、更容易理解的树,而不会在应用之前牺牲相关属性。

    问候,
    Balazs
    Matt_Pilk
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:911独角兽
    解决方案接受
    嗨!

    如果决策树的可解释性是最重要的因素,则取决于用例。

    通常情况并非如此,我使用参数优化从不同的学习算法中获得最佳决策树或模型。(决策树通常不是最好的模型。)

    在Community Samples存储库中有一个示例构建块:


    问候,
    Balazs
    Matt_Pilk

答案

  • Matt_PilkMatt_Pilk 成员职位:4新手
    谢谢Balazs。在制作决策树时,你是会不断扩展它,直到获得你认为可以接受且可以解释的准确率,还是会追求最高的准确率,即使它有15-20个层次?
登录注册置评。