模型的准确性是一样的
AizatAlam_129
成员职位:14因素二世
在帮助
最佳答案
-
BalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:876独角兽嗨!
数据不平衡不一定是个问题。有一些方法可以解决这个问题。
在运行autommodel之前尝试平衡数据。这不会给你一个可以部署的完美模型,但你可以对平衡数据的模型质量,属性的重要性以及哪种算法对你的数据最有效进行估计。您应该从这种方法中得到更复杂的模型和更合理的混淆矩阵,即使精度可能比以前低。
这是一个关于平衡,抽样和加权数据的学院视频。你可以尝试以下方法来创建一个关于不平衡数据的良好模型:
https://academy.www.turtlecreekpls.com/learn/video/sampling-weighting-intro
所以,我会这样做:
1.将多数人的样本降低到与少数人的样本大致相等。
2.在平衡数据上运行autommodel。
3.为进一步的工作选择模型类型。
4.用加权或抽样的方法构建一个过程,例如在交叉验证的左边部分进行下采样。
5.验证和优化最终模型。
在原始(不平衡)分布上验证模型是很重要的,即使使用一些抽样方法来构建更好的模型。
问候,
Balazs1
答案
根据我的经验,当数据集不平衡且难以预测时,就会发生这种情况。在这种情况下,对于每个建模算法,预测多数类将是最佳选择,所以他们会这样做。但也可能有其他的可能性。
准确率、AUC值和混淆矩阵是否都相同?您可以很容易地在混淆矩阵中看到“所有模型预测大多数类”。
你能看看实际的模型吗,比如决策树、GBT、随机森林?它们很容易理解。如果树只是简单的双向决策,而不是树,那么这就是原因。
问候,
Balazs
在检查DT, GBT和RF后,奇怪的是它们确实只是简单的双向决策。
这是否意味着我的数据有问题,模型是不正确的?