模型的准确性是一样的

AizatAlam_129AizatAlam_129 成员职位:14因素二世
你好,

我在RM的自动模型上运行我的数据进行预测,结果显示所有的模型都有相同的准确率。

我不知道为什么会这样。谁能给我解释一下是什么导致了现在的局面?

谢谢你!
标记:

最佳答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:876独角兽
    解决方案接受
    嗨!

    数据不平衡不一定是个问题。有一些方法可以解决这个问题。

    在运行autommodel之前尝试平衡数据。这不会给你一个可以部署的完美模型,但你可以对平衡数据的模型质量,属性的重要性以及哪种算法对你的数据最有效进行估计。您应该从这种方法中得到更复杂的模型和更合理的混淆矩阵,即使精度可能比以前低。

    这是一个关于平衡,抽样和加权数据的学院视频。你可以尝试以下方法来创建一个关于不平衡数据的良好模型:
    https://academy.www.turtlecreekpls.com/learn/video/sampling-weighting-intro

    所以,我会这样做:
    1.将多数人的样本降低到与少数人的样本大致相等。
    2.在平衡数据上运行autommodel。
    3.为进一步的工作选择模型类型。
    4.用加权或抽样的方法构建一个过程,例如在交叉验证的左边部分进行下采样。
    5.验证和优化最终模型。

    在原始(不平衡)分布上验证模型是很重要的,即使使用一些抽样方法来构建更好的模型。

    问候,
    Balazs
    AizatAlam_129

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:876独角兽
    嗨!

    根据我的经验,当数据集不平衡且难以预测时,就会发生这种情况。在这种情况下,对于每个建模算法,预测多数类将是最佳选择,所以他们会这样做。但也可能有其他的可能性。

    准确率、AUC值和混淆矩阵是否都相同?您可以很容易地在混淆矩阵中看到“所有模型预测大多数类”。

    你能看看实际的模型吗,比如决策树、GBT、随机森林?它们很容易理解。如果树只是简单的双向决策,而不是树,那么这就是原因。

    问候,
    Balazs
  • AizatAlam_129AizatAlam_129 成员职位:14因素二世
    @BalazsBarany你完全正确!数据集确实是不平衡的(尽管不确定预测的复杂性)。每个模型的准确率都是相同的,但AUC不同。

    在检查DT, GBT和RF后,奇怪的是它们确实只是简单的双向决策。

    这是否意味着我的数据有问题,模型是不正确的?
登录注册置评。