随机森林回归的特征权重中发现的问题

marcin_blachnikmarcin_blachnik 成员职位:61大师
2020年9月编辑 帮助
RandomForest操作符返回的feature_weights似乎有问题或bug,但仅用于回归。我在一个数据集上发现了这个问题,但我在IRIS数据集上重建了它,其中a3和a4的特征是最重要的,但根据回归随机森林,这两个特征是最不重要的。
我评估了RandomForest回归的其他实现,这些实现返回正确的权重(预期的权重)。

致以最亲切的问候

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    很久以前我已经提交了一份关于RandomForest权重的文件。看起来它可能仍然没有得到纠正,这是同一个潜在问题的另一个例子。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入数据科学咨询由认证的RapidMiner专家
  • marcin_blachnikmarcin_blachnik 成员职位:61大师


    我很惊讶这样的要求被忽视了。许多人使用RandomForest权重作为特性重要性指示器,并基于它做出严肃的决策。
    如果RM的人回答“谢谢,我们将分析报告的问题”,那也很好,但没有回应。

    下面我附上另一个进程,可以看到,根据RandomForest的RapidMiner实现,带有纯噪声的属性是第二重要的变量(最重要的似乎也是随机选择的属性)。因为树很简单(5棵深度为5的树),所以可以计算每个属性作为决策节点出现的次数。噪声变量是最不重要的。

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3316年RM数据科学家
    你好,
    我有一种奇怪的感觉,权重生成并没有考虑到示例的数量,而只是对增益节点求和。这能解释这种行为吗?

    ~马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
  • marcin_blachnikmarcin_blachnik 成员职位:61大师


    我还没有检查源代码,但我感觉问题更严重。在我上一篇文章的例子中,随机森林由5棵树组成,可以看到噪声属性A5在树中只出现了两次,而A3和A4出现得最多。对于分类,权重工作正确,所以我认为这可能与标准及其性质有关。
    如果RM在即将发布的版本中纠正它,那就太好了。

    致以最亲切的问候
  • gmeiergmeier 员工,成员职位:24RM工程
    2021年1月编辑
    谢谢你的错误报告。我们发现了问题并解决了它。它将是下一个版本的一部分。
    MartinLiebig
登录注册置评。