流失预测的糟糕表现

TomatenmarkTomatenmark 成员职位:4贡献我
嘿,

我为ChurnPrediction创建了一个流程。我在数据集中的标签是“流失”。
1代表是,0代表否。

我使用了决策树和交叉验证操作符,您可以在我的过程中看到。
但是我的模型并不能预测客户的移动/流失。
预计所有顾客都会留下来,因此我的班级召回率为真1为0%。

我不明白为什么我的预测如此糟糕。
请查收附件的数据文件,我的过程和性能矢量的截图。

谢谢您的支持脸红:
Jasmine_

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:911独角兽
    你好,

    决策树的默认设置通常是好的,但并非在所有情况下都是如此。它们是为了避免过度拟合,但这可能不适合您的数据。

    首先尝试禁用修剪和后修剪。检查结果模型。它很可能是一个非常复杂的树(可能是过拟合的),但它可以预测两个类别,即使交叉验证会显示出不好的结果。如果这有效,您可以再次启用剪枝和后剪枝,并使用这些参数,直到找到最优值。
    最好的方法是使用优化参数。在Community Samples存储库中有一个可用的构建块:
    社区构建模块/优化决策树。

    这是学院关于参数优化的视频:
    https://academy.www.turtlecreekpls.com/learn/video/optimization-of-the-model-parameters

    最后,也许Decision Tree并不是数据的最佳学习器。你可以尝试梯度增强树、随机森林、朴素贝叶斯、逻辑回归、深度学习、支持向量机等。

    问候,
    Balazs
    varunm1 Jasmine_ sgenzer
  • rfuentealbarfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    你好@Tomatenmark,

    我看到了你的数据,我的想法如下:
    • 您有一些唯一标识客户的变量,应该从模型中删除这些变量。
    • 大多数变量都是数值型的。因此
    此外,我会尝试检查是否存在相关变量。现在是凌晨2点20分,我玩不下去了。

    作为@BalazsBarany前面已经提到,最好使用“优化参数”来确定哪些参数更好。我还会对数据进行一些统计,看看你的数据有多稳定,有多少记录被重复,等等(文本性、唯一性、与目标变量的相关性等)。

    希望这能帮到你,

    杆。
    sgenzer Jasmine_
  • TomatenmarkTomatenmark 成员职位:4贡献我
    2020年2月编辑

    rfuentealba,

    谢谢你的回答。正如您所看到的,我在过程中使用了 optimize_parameters_grid,我为决策树尝试了许多不同的参数组合,但仍然不起作用。

    为了找到相关变量,我可以使用相关矩阵,我来试一下。

    所以我的大多数变量都是数字是好的还是有问题?
    为什么要删除CustomerID?在我的set role操作符中,我告诉rapidminer它是一个id列。

    希望我的解释你能理解微笑:
    提前感谢,

    Tomatenmark
    sgenzer Jasmine_
登录注册置评。