“平衡抽样决策树”

ddrddr 成员职位:1贡献我
2019年6月编辑 帮助
大家好!

我刚开始使用rapidminer,我对决策树有一个问题。我正在处理一个比较大的数据集(大约50万例)。我正在尝试使用决策树来预测用户是否愿意购买产品。问题是买入率非常低,只有0.5%。当使用“样本”算子的比率为50%的分层抽样时,我的树总是偏向于大多数类,所以结果是完全无用的。我是否有办法以50-50%的比率平衡结果变量进行建模,然后将样本重新平衡到原始比率?我在论坛上搜索过,但尝试了所有的答案,并在rapidminer中搜索了许多运营商,但没有给我任何结果。

提前感谢!
标记:

答案

  • MariusHelfMariusHelf RapidMiner认证专家、会员职位:1869年独角兽
    如果使用balance_data选项,可以使用Sample操作符对大多数类进行抽样(即丢弃一些示例)。然后你可以指定每个类中你想要用来学习的例子的数量。

    这对你来说够了吗?

    最好的问候,
    马吕斯
  • abbasi_samiraabbasi_samira 成员职位:9贡献我

    你好
    如何使两个功能的类数相等(50:50)

    请帮帮我

    谢谢

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    在你发布同样问题的另一个线程中回答。

    斯科特

登录注册置评。