构建模型
下面的页面记录了web应用程序RapidMiner Go。要安装RapidMiner Go,您需要一个本地许可证。请联系销售为更多的信息。
RapidMiner Go旨在帮助您从您的数据建立预测模型-快速和简单。你所需要的只是一个数据集(如Excel电子表格)和你想要预测的东西。就这么简单!
正如在介绍,我们会指引你完成以下步骤:
在步骤(4)结束时,您将创建一个或多个模型。之后,你就可以了检查模型然后决定哪一个最适合你的目的。
步骤1:上传数据
你的隐私很重要。请不要上传包含个人身份信息的数据。
我们建议您删除包含这些信息的列,或者使用匿名化或pseudonymization.
RapidMiner Go接受电子表格格式(Excel或CSV)的数据,具有以下特点:
- 无限的行
- 最高500列
- 最大50 MB文件大小
如果没有可用的数据集,并且只想快速查看应用程序,请按下该按钮使用样本数据集,并选择“客户流失预测数据”。否则,按上传数据.
CSV | Excel |
|
|
步骤2:选择列
接下来,我们将讨论选择样本数据集“流失预测数据”的结果。这些数据涉及一家电话公司的客户,他们可能会放弃也可能不会放弃他们的订阅。
其中一个数据列,我们称之为目标列—具有您想要预测的值。在我们当前的示例中,目标列是“流失”,因为我们希望预测谁将流失。从下拉菜单中,选择“流失”,然后单击下一个.
通常,目标列的值可以是数值的(如“CustServ Calls”),也可以是分类的(如“turnover”)。根据你的目标列,这个问题可以分为以下三类:
- 二元分类-分类数据,两个可能的值(如“流失”)
- 多类分类-类别数据,三个或更多可能的值
- 回归-数字数据(如“CustServ Calls”)
选择一个列,RapidMiner Go将自动检测它必须解决的问题类型。下面给出了每一类问题的其他详细信息。
二元分类(预测两个可能值中的一个)
有些问题的答案只有是或否。例如,如果你参加一项医学测试,结果通常被描述为积极的或负:
- 积极的测试发现了你要找的东西(例如,感染)
- 负:测试没有发现你想要的(例如,没有感染)
如果结果是阳性的,可能需要进行更彻底的调查;如果结果是阴性的,就不需要再做更多的工作。可以说,阳性结果更重要,更值得重视,因为医疗工作的重点是治疗感染。
我们当前的问题是,“流失”的值是“是”或“否”,这是一个二元分类问题的例子,重点是“是”,因为我们想预测哪些客户会流失。
多类分类(预测三个或多个可能值中的一个)
如果目标列有三个或更多非数值值,你的问题被称为多类分类问题。
回归(预测数值)
如果你的目标列是数字的,你想要预测该列中的数字,你的问题被称为回归问题。例如,在我们的“客户流失预测数据”中,有一个名为“CustServ Calls”的列,其值是客户呼叫客户服务的次数。
步骤3:选择输入
不是所有的数据列都能帮助你做出预测。通过丢弃一些列,您可以加速模型的构建和/或改进模型的性能.但是你怎么做决定呢?关键是你在寻找模式。如果数据中没有一些变化和一些可识别的模式,数据就不太可能有用。
RapidMiner Go用来判断某一列是否有用的四个标准是:
- 相关-这些值与目标列有多相似?
- ID-ness-价值观之间有何不同?
- 稳定-它们之间的值有多相似?
- 失踪-相对于总数,该列中有多少缺失的值?
每一列都有一个质量标签:绿色、黄色或红色。
绿色 质量好 |
黄色的 需要检查 |
红色的 质量差 |
|
|
默认情况下,RapidMiner Go将取消选择带有红色或黄色质量标签的列,但您当然可以自由选择或取消选择任何您喜欢的列!通常情况下,默认设置可以很好地工作,但是如果一个列被标记为黄色标记并具有高度的相关性.
为了理解高相关性的问题,考虑一个极端的例子:完全相关性。如果你有X和Y两列,X = Y,那么相关性是100% X只是Y的另一个名称。如果你预测X,你会丢弃Y列,因为它是多余的。即使相关性小于100%,也可能是冗余的。问自己以下问题:在做出预测之前,我是否能够访问高度相关列中的数据?如果没有,数据就没有用处。
然而,在某些情况下,列对预测是有用的,正是因为它与目标列高度相关;如果你排除它,你就有风险破坏你的模型.只有你自己能确定。如果有疑问,您可以创建两个模型:一个具有高度相关的列,另一个没有,以帮助您决定哪个是最好的。
选择输入,流失预测数据
RapidMiner Go在我们的用户流失预测数据中发现了以下问题:
- 高ID-ness:“电话”号码是一个ID,对每个客户都是唯一的。它在预测流失率方面毫无价值。
- 许多缺失值:只有3%的客户有国际费用(“国际费用”),所以这一列数据不能告诉我们太多。
- 低的相关性:“账户长度”与“流失率”之间无相关性。客户使用电话公司的时间和他更换电话的概率之间似乎没有什么关系,所以“帐户长度”不太可能有用。
默认情况下,所有这些数据列都被取消选中。还有一列已被取消,但需要进一步讨论。
- 高度的相关性:“客户服务呼叫”与“流失”有57%的相关性
显然,客户服务电话的数量是流失的一个很好的指标。如果客户多次打电话给客服,电话公司应该采取积极的措施来留住客户。但是在构建模型时,您是否希望包含“CustServ Calls”呢?让我们回到刚才提出的问题:在做出预测之前,我是否能够访问高度相关列中的数据?在这种情况下,答案是是的.因此,我们选择在我们的模型中包含“CustServ Calls”,并理解模型的预测将非常倾向于该列中的值。
步骤4:选择型号
RapidMiner Go提供了一些更流行的机器学习算法。根据目标列中的数据类型,可能只有这些算法的一个子集可用。
二元分类 | 多类分类 | 回归 | |
---|---|---|---|
朴素贝叶斯 | |||
逻辑回归 | |||
深度学习 | |||
决策树 | |||
广义线性模型 | |||
随机森林 | |||
梯度增加了树木 | |||
支持向量机 | |||
快大利润 |
选择您想要包括的模型,并按运行分析.
下一个:检查模型
进一步的阅读
下面的链接到RapidMiner文档提供了更多关于在RapidMiner Go中使用的预测模型算法的信息: