决策树#熵#标准#kappa #精度

席琳席琳 成员职位:6新手
2020年8月编辑 帮助
嗨,伙计们,

谁能解释一下如何定义和检测DT中的熵?(叶子下面的蓝色和红色标签代表什么?

70%的准确率和0.30左右的kappa是否足够预测?

我应该为DT“增益比”或“信息增益”选择什么标准来最大化我的准确性和kappa?


问候,






标记:

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    你好,你的帖子里有一些问题,所以我将试着对其中的大多数进行评论。
    每个节点下的蓝色/红色标签表示该节点中属于每个类别的示例数量。这些比率构成了DT生成的置信度分数的基础。
    如果你想最大化你的树的精度,你可以直接选择精度作为树生长的主要标准。但从抽象意义上说,70%的准确率对于预测来说是否“足够好”是不可能的。在某些领域,这将被认为是伟大的,使用起来没有问题,而在其他领域,这将是可怕的。这个问题是非常特定于领域和数据集的。
    信息增益倾向于具有更多类别/特定值的属性,因为它没有根据可能的不同值的数量进行调整。信息增益比为此进行调整,因此在其他条件相同的情况下,信息增益比可能是两者之间更可靠的标准(这就是为什么它是默认值)。如果你想了解如何计算信息增益,维基百科的文章有一个很好的总结:https://en.wikipedia.org/wiki/Information_gain_in_decision_trees

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
登录注册置评。