决策树算法的问题

szymekszymek 成员职位:3.贡献我
2019年6月编辑 帮助
你好,

我试图在Raipd Miner中运行决策树算法,它似乎没有提供正确的结果。我不确定这个问题是由算法的实现引起的,还是有另一个原因。下面是我尝试用RM运行的练习。

我使用以下数据(A和B是标称的,二进制属性,有两个类:+和-):
A、B类
T、F +
T, T +
T, T +
T、F -
T, T +
F, F -
F, F -
F, F -
T, T -
T、F -

我想建立一个决策树,使用Ginin指数作为分割的标准。快速矿工选择属性A作为分割的最佳属性。但是,如果我手工计算,B似乎更好。你知道它们的区别在哪里吗?以下是我的计算结果:
分裂前的总体基尼系数为:
G源自= 1−0.42−0.62= 0.48

在A上分裂后的基尼增量为:
G一个= T= 1−(4/7)2−(3/7)2= 0.4898
G一个= F= 0
Δ = g源自−7/10 g一个= T−3/ 10g一个= F= 0.1371

在B上分裂后的基尼增量为:
GB = T= 1−(1/4)2−(3/4)2= 0.3750
GB = F= 1 - (1/6)2−(5/6)2= 0.2778
Δ = g源自−4/ 10gB = T−6/ 10gB = F= 0.1633

因此,应该选择属性B来分割节点(而不是RM计算出的属性A)。

问候,
Szymon
标记:

答案

  • 土地土地 RapidMiner认证分析师,RapidMiner认证专家,成员职位:2531年独角兽
    你好,
    谢谢你的提示。我们会查一下,但可能需要一些时间。

    问候,
    塞巴斯蒂安。
登录注册置评。