决策树算法的问题
你好,
我试图在Raipd Miner中运行决策树算法,它似乎没有提供正确的结果。我不确定这个问题是由算法的实现引起的,还是有另一个原因。下面是我尝试用RM运行的练习。
我使用以下数据(A和B是标称的,二进制属性,有两个类:+和-):
A、B类
T、F +
T, T +
T, T +
T、F -
T, T +
F, F -
F, F -
F, F -
T, T -
T、F -
我想建立一个决策树,使用Ginin指数作为分割的标准。快速矿工选择属性A作为分割的最佳属性。但是,如果我手工计算,B似乎更好。你知道它们的区别在哪里吗?以下是我的计算结果:
分裂前的总体基尼系数为:
G源自= 1−0.42−0.62= 0.48
在A上分裂后的基尼增量为:
G一个= T= 1−(4/7)2−(3/7)2= 0.4898
G一个= F= 0
Δ = g源自−7/10 g一个= T−3/ 10g一个= F= 0.1371
在B上分裂后的基尼增量为:
GB = T= 1−(1/4)2−(3/4)2= 0.3750
GB = F= 1 - (1/6)2−(5/6)2= 0.2778
Δ = g源自−4/ 10gB = T−6/ 10gB = F= 0.1633
因此,应该选择属性B来分割节点(而不是RM计算出的属性A)。
问候,
Szymon
我试图在Raipd Miner中运行决策树算法,它似乎没有提供正确的结果。我不确定这个问题是由算法的实现引起的,还是有另一个原因。下面是我尝试用RM运行的练习。
我使用以下数据(A和B是标称的,二进制属性,有两个类:+和-):
A、B类
T、F +
T, T +
T, T +
T、F -
T, T +
F, F -
F, F -
F, F -
T, T -
T、F -
我想建立一个决策树,使用Ginin指数作为分割的标准。快速矿工选择属性A作为分割的最佳属性。但是,如果我手工计算,B似乎更好。你知道它们的区别在哪里吗?以下是我的计算结果:
分裂前的总体基尼系数为:
G源自= 1−0.42−0.62= 0.48
在A上分裂后的基尼增量为:
G一个= T= 1−(4/7)2−(3/7)2= 0.4898
G一个= F= 0
Δ = g源自−7/10 g一个= T−3/ 10g一个= F= 0.1371
在B上分裂后的基尼增量为:
GB = T= 1−(1/4)2−(3/4)2= 0.3750
GB = F= 1 - (1/6)2−(5/6)2= 0.2778
Δ = g源自−4/ 10gB = T−6/ 10gB = F= 0.1633
因此,应该选择属性B来分割节点(而不是RM计算出的属性A)。
问候,
Szymon
0
答案
谢谢你的提示。我们会查一下,但可能需要一些时间。
问候,
塞巴斯蒂安。