随机森林越来越糟糕
嗨,我正在使用不同的方法来比较使用本教程设计的结果:
由于运行时的原因,我最初将随机森林设置为只有10棵树和5倍交叉验证(朴素贝叶斯和决策树运行10倍)。
其中NB的f值为66.6,DT为67.8,RF为62。我把这个较差的表现归因于它只有5倍,所以我用10倍来运行它。
这次《随机森林》得了46.5分!
这是怎么发生的?我必须对RF进行不同的设置吗?
0
最佳答案
-
BalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:913独角兽你有多少例子?如果结果保持不变,尝试抽样并检查朴素贝叶斯和决策树。
使用随机森林,尝试20或30棵树并查看模型。如果它们是有意义的,那么这个问题可能很适合树基方法。如果没有,试试其他的学习者。0
答案
德国多特蒙德
您应该尝试更多的树并查看模型。如果问题根本不适合树,你也可能从随机森林中得到不好的结果。
你在做文本挖掘吗?您是否有非常多的属性?基于树的模型在这方面真的很慢。尝试一个支持向量机和优化C参数,它应该更快,更好。
随机森林的问题在于属性是随机选择的。如果你有一些相关的单词,那么就不会在很多模型中出现。
问候,
Balazs
在构建树时,随机森林有意选择属性和示例的随机子集。这样做的目的是使模型更加健壮,这在很多情况下都是有效的。然而,在文本挖掘中,您有数千个属性,其中只有少数可能与您的用例相关。将这些属性从考虑中随机排除的随机森林将比一个处理所有属性的决策树更糟糕。
SVM只能使用数字属性,但如果这不起作用,您应该从RapidMiner获得警告。如果操作符只是退出而没有给出结果,则检查连接并在执行之前和之后设置断点(F7和Shift+F7或从右键单击上下文菜单)。
问候,
Balazs
在文本挖掘中,通常只有数字属性。Process Documents从X生成的属性是数字的。
如果你有剩余的标称,你需要转换它们,例如使用标称到数值。
问候,
Balazs