流失预测的糟糕表现
Tomatenmark
成员职位:4贡献我
在帮助
嘿,
我为ChurnPrediction创建了一个流程。我在数据集中的标签是“流失”。
1代表是,0代表否。
我使用了决策树和交叉验证操作符,您可以在我的过程中看到。
但是我的模型并不能预测客户的移动/流失。
预计所有顾客都会留下来,因此我的班级召回率为真1为0%。
我不明白为什么我的预测如此糟糕。
请查收附件的数据文件,我的过程和性能矢量的截图。
谢谢您的支持
1
答案
决策树的默认设置通常是好的,但并非在所有情况下都是如此。它们是为了避免过度拟合,但这可能不适合您的数据。
首先尝试禁用修剪和后修剪。检查结果模型。它很可能是一个非常复杂的树(可能是过拟合的),但它可以预测两个类别,即使交叉验证会显示出不好的结果。如果这有效,您可以再次启用剪枝和后剪枝,并使用这些参数,直到找到最优值。
最好的方法是使用优化参数。在Community Samples存储库中有一个可用的构建块:
社区构建模块/优化决策树。
这是学院关于参数优化的视频:
https://academy.www.turtlecreekpls.com/learn/video/optimization-of-the-model-parameters
最后,也许Decision Tree并不是数据的最佳学习器。你可以尝试梯度增强树、随机森林、朴素贝叶斯、逻辑回归、深度学习、支持向量机等。
问候,
Balazs
rfuentealba,
谢谢你的回答。正如您所看到的,我在过程中使用了
为了找到相关变量,我可以使用相关矩阵,我来试一下。
所以我的大多数变量都是数字是好的还是有问题?
为什么要删除CustomerID?在我的set role操作符中,我告诉rapidminer它是一个id列。
希望我的解释你能理解
提前感谢,
Tomatenmark