提高随机森林性能

a_politoa_polito 成员职位:3.新手
你好!:)我正在研究一个随机森林预测模型来预测一个二元标签。数据集大约有70%到30%是不平衡的。属性是数字,表示财务报表指数或欧元金额,如EBITDA。

该过程包括数据读取,选择缺失值<10%的特征,归一化(Z变换),用平均值替换缺失值,训练数据中大多数标签类的欠采样交叉验证,信息增益RF(深度为15的200棵树)。

表演并不好;正确率约74%,查全率加权75%,精密度加权72%;F测量65.89(类精度初级类57%)

我怎样才能提高性能?你有什么建议吗?
标记:

最佳答案

  • rfuentealbarfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    解决方案接受
    大家好,希望现在回答还不算太晚:

    如果我们不知道数据,可能很难回答,可能有几种策略。你有可能应用某种离散化吗?(将连续值转换为离散值或“徽章”可能会有所帮助)。你知道是否有任何异常或趋势可能被掩盖在数据中吗?这些是我能画出来的。

    此外,欠采样有时可能会带来问题,因为数据是人为的。如果你的算法支持加权可能会更好。

    登录注册置评。