新手-期望的性能输出-在使用样本运算符之后

AmsDaniAmsDani 成员职位:3.贡献我
嗨,很抱歉初学者的问题…我有一个3万行的数据集。目标变量不平衡:总false: 24000 /总true: 6000。所以我使用了操作员“样本”来平衡它(每个1000)。最后,性能分类算子给出了只有2000个结果(来自样本)的混淆矩阵。我期待基于整个数据集(总共30,000行)的评估(每个TP/ TN/ FP/ FN的总数),以便评估成本(在性能成本操作符上)。我错过了什么?也许问题是用于输入/输出连接器的错误行?有什么建议可以出错吗?我已经尝试了很多方法.... Thanks in advance for your help!

最好的答案

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    解决方案接受
    由于您只选择了2000个示例进行模型构建和验证,这就是您在混淆矩阵中得到的结果。然而,由于您使用成本作为模型评估的方法,您也可以使用成本敏感模型来处理类不平衡,例如决策树。我假设对少数类别进行错误分类的成本很高(例如,代表欺诈的正面案例),而对多数类别进行错误分类的成本很低(负面案例)。当这样设置成本结构时,在模型训练中,可以减轻多数班级的重要性,从而克服班级不平衡的问题。
    MartinLiebig
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:913独角兽
    解决方案接受
    解决这个问题的另一种方法是将采样移到交叉验证的训练阶段。这样,您可以构建平衡的模型,但仍然对所有数据进行验证。
    此外,在验证之前的抽样为建模过程创建了额外的“知识”,而这些知识在稍后应用模型时是不具备的。

    问候,
    Balazs
  • AmsDaniAmsDani 成员职位:3.贡献我
    解决方案接受
    谢谢你的回答!我会按照你建议的方式尝试Balázs!
    登录注册置评。