《装袋算法中的最终预测》

adrian_crouch · 2015年12月

大家好，RM社区，

我不确定我是否错了，但我一直认为bagging元算法应该在多数投票的基础上选择最终预测(在分类中)。当对单个模型为标签值生成的数字置信度求平均值时，这意味着最终置信度可能无法直接映射到最终预测。

假设我们有三个汇总的模型，这些模型预测的置信度为0.4。，在二项分类中，A类为0.4和0.9,B类为0.6、0.6和0.1。当对这些置信度求平均值时，A类的置信度为0.567,B类的置信度为0.433。在多数投票方法中，我期望“B”作为最终预测的类别，因为它被三个模型预测了2次，而“a”类别只被预测了一次。

这与bagingmodel(版本5.3.008)中的实现无关。这里是最终选择的最高平均置信度的标签值—对于上面的示例，由于较高的置信度为0.567，因此为“A”。

有没有人能告诉我，我是不是在这里想错了?
非常感谢,
艾德里安

MartinLiebig · 2015年12月

嗨,艾德里安,

它可以简单地归结为加权平均数或非加权平均数。我认为两者都很有用。布里曼的原始射频实现采用了非加权。

~马丁

adrian_crouch · 2015年12月

您可能是对的:如果对置信度取平均值并乘以来自标签值预测次数的权重，那么我的假设成立。但是，当查看bagingmodel的实现时，我找不到任何在这种情况下处理权重的东西(因此，难怪结果不符合我的期望)。
所以我不太明白你的意思。是我误解了什么，还是它确实是装袋实现中的一个bug ?

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

《装袋算法中的最终预测》

答案