登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.5 k
所有类别
19.5 k
帮助
442
知识库
Altair RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
决策树#熵#标准#kappa #精度
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问一个问题
寻找有用的视频
首页
;
帮助
决策树#熵#标准#kappa #精度
席琳
成员
职位:
6
新手
2020年8月
2020年8月编辑
在
帮助
嗨,伙计们,
谁能解释一下如何定义和检测DT中的熵?(叶子下面的蓝色和红色标签代表什么?
70%的准确率和0.30左右的kappa是否足够预测?
我应该为DT“增益比”或“信息增益”选择什么标准来最大化我的准确性和kappa?
问候,
标记:
性能
决策树
0
答案
Telcontar120
主持人,RapidMiner认证分析师,RapidMiner认证专家,会员
职位:
1635年
独角兽
2020年8月
你好,你的帖子里有一些问题,所以我将试着对其中的大多数进行评论。
每个节点下的蓝色/红色标签表示该节点中属于每个类别的示例数量。这些比率构成了DT生成的置信度分数的基础。
如果你想最大化你的树的精度,你可以直接选择精度作为树生长的主要标准。但从抽象意义上说,70%的准确率对于预测来说是否“足够好”是不可能的。在某些领域,这将被认为是伟大的,使用起来没有问题,而在其他领域,这将是可怕的。这个问题是非常特定于领域和数据集的。
信息增益倾向于具有更多类别/特定值的属性,因为它没有根据可能的不同值的数量进行调整。信息增益比为此进行调整,因此在其他条件相同的情况下,信息增益比可能是两者之间更可靠的标准(这就是为什么它是默认值)。如果你想了解如何计算信息增益,维基百科的文章有一个很好的总结:
https://en.wikipedia.org/wiki/Information_gain_in_decision_trees
布莱恩·T。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
0
登录
或
注册
置评。
答案
每个节点下的蓝色/红色标签表示该节点中属于每个类别的示例数量。这些比率构成了DT生成的置信度分数的基础。
如果你想最大化你的树的精度,你可以直接选择精度作为树生长的主要标准。但从抽象意义上说,70%的准确率对于预测来说是否“足够好”是不可能的。在某些领域,这将被认为是伟大的,使用起来没有问题,而在其他领域,这将是可怕的。这个问题是非常特定于领域和数据集的。
信息增益倾向于具有更多类别/特定值的属性,因为它没有根据可能的不同值的数量进行调整。信息增益比为此进行调整,因此在其他条件相同的情况下,信息增益比可能是两者之间更可靠的标准(这就是为什么它是默认值)。如果你想了解如何计算信息增益,维基百科的文章有一个很好的总结:https://en.wikipedia.org/wiki/Information_gain_in_decision_trees
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询