汽车模型
无论您是刚开始使用RapidMiner,还是您是老手,Auto Model都可以使您的生活更轻松。Auto Model是RapidMiner Studio的扩展,可以加速构建和验证模型的过程。最重要的是,它创建了一个您自己可以修改或投入生产的过程没有黑盒子!
Auto Model解决了三大类问题:
- 预测
- 聚类
- 离群值
在预测类别中,您可以解决分类和回归问题。Auto Model帮助您评估数据,为问题的解决方案提供相关模型,并在计算完成后帮助您比较这些模型的结果。
自动模型不仅帮助你得到结果;它还能帮助你理解这些结果即使对于像深度学习这样的内部逻辑可能难以理解的模型也是如此。在RapidMiner Studio中,Auto Model显示为一个视图,紧挨着设计视图、结果视图和Turbo Prep。
如果数据处于分散或不一致的状态,尚未准备好进行模型构建,请参见涡轮预科。
例子:预测在泰坦尼克号上的生存
为了展示Auto Model是如何工作的,我们将使用RapidMiner Studio捆绑的数据集之一,即泰坦尼克号数据集,并使用它来预测泰坦尼克号上的生存情况。要开始,请选择汽车模型
通过按下RapidMiner Studio顶部的按钮来查看。
选择数据
启动Auto Model之后,第一步是从一个存储库中选择一个数据集。如果您的数据不在存储库中,请单击屏幕顶部显示“首先导入新数据”的链接。
在我们的例子中,泰坦尼克号数据集可以在下面找到样品
>数据
。选择此数据集,然后单击下一个
在屏幕底部。
选择任务
选择了一个数据集之后,你必须决定你想要解决什么样的问题。Auto Model识别了三个不同的任务:
- 预测
- 集群
- 离群值
在我们的例子中,我们想要预测泰坦尼克号上的生存,所以你应该选择预测
,点击“幸存”一栏,然后再点击下一个
。
准备目标
因为“幸存”只有两个值,“是”或“否”,所以这个问题是一个分类问题。一般来说,对于分类问题,Auto Model将显示一个条形图,其中包含每个类中的数据点数量。当有10个以上的类时,只显示数据点最多的10个类。
最高利息类别
的最高利息类别
在后面显示结果时变得很重要,因为诸如“Precision”和“Recall”之类的性能值依赖于知道哪个类应该被解释为“正”结果。在我们泰坦尼克号的例子中最高利息类别
是“是的”。
将类映射到新值
此步骤包括将目标值从“Yes”和“No”重命名为其他值的选项。当有两个以上的类时,这个选项可能更有用,因为它可以用于组合类。输入新值时,请确保按下输入
关键。在我们的示例中,我们将忽略此选项。点击下一个
继续。
选择输入
并非所有的数据列都能帮助您进行预测。通过丢弃一些数据列,您可以加速模型和/或提高其性能。但你是如何做出这个决定的呢?关键是要寻找模式。如果数据中没有一些变化和一些可识别的模式,这些数据就不太可能有用。
需要注意的事项的快速摘要包括以下内容,其值与每个数据列的质量条一起显示。
- 列与目标列过于接近,或者根本没有(相关性);
- 几乎所有值都不同的列(ID-ness);
- 几乎所有值都相同的列(稳定性);
- 值缺失的列(missing)。
Auto Model用颜色标记的状态气泡(红/黄/绿)总结了这种情况。作为一般规则,至少取消选择那些有红色状态气泡的列是一个好主意,当然,您也可以取消选择任何您喜欢的列,而不考虑它们的状态。机器学习模型的输入将只包括选定的列。
就泰坦尼克号而言,“船名”和“船票号码”相当于身份证。大多数乘客都忽略了“客舱”的价值。因此,在构建模型时,应该丢弃这三个带有红色状态气泡的列。它们都无助于发现模式。
“救生艇”有一个黄色的状态气泡,因为这一栏中的数据与“幸存”高度相关。“救生艇”和“幸存”实际上是同义词,所以最好从“救生艇”列中删除数据,让模型发现生存的潜在原因。
换句话说,你期望模型帮助你制定计划。乘客不能提前知道他是否会上救生艇,所以这不是计划的一部分,但他可以决定花多少钱买票,以及是否带家人一起去。
在本例中,您还应该取消选择带有黄色状态气泡的数据,“Life Boat”,并按下下一个
。
模型类型
Auto Model为您提供了一系列与您的问题相关的模型。如果没有时间限制,最好的选择可能是构建所有这些组件,并在完成后比较它们的性能。通常,您必须决定您的优先级:是完成模型的准确性,还是构建模型所需的时间?Auto Model帮助您达成一个合理的妥协。
在泰坦尼克示例中,Auto Model提供了以下模型:
新闻运行
构建模型并生成结果。
结果
根据您的数据集和您选择的模型,您可能需要等待结果。顶部的进度条跟踪正在进行的计算的状态。您可以在任何时候通过按停止
按钮。中间结果在可用时显示,例如,在比较
>概述
。
在泰坦尼克数据集的情况下,梯度增强树(XGBoost)模型需要最长的时间来构建,但它也是最准确的模型。看到比较
>概述
比较模型的准确性和运行时间。考虑到梯度增强树相对于深度学习的边际性能优势,以及相当长的运行时间,在这种情况下,您可能更愿意使用深度学习模型。
模型模拟器和其他有用的操作
自动模型不仅帮助你得到结果;它还可以帮助您理解这些结果。深度学习因创建准确但非直观的模型而臭名昭著;请看下面显示的模型描述深度学习
>模型
。接下来,我们将使用Auto model提供的一些有用的用户界面来探索深度学习模型。
模型模拟
要获得更好的洞察力,请选择深度学习
>模拟器
。在这里,您将看到一个用户界面,左边是滑块和下拉列表,右边是条形图。对于其初始状态,模型模拟器选择平均数据值。在泰坦尼克号上,这个平均值相当于一名30岁左右的三等舱男性乘客,船上的亲戚相对较少。
根据右上方的条形图,最有可能的情况是,这名乘客会不生存。他的生存几率是11%。下面的条形图解释了反对他的原因:最重要的是,他用绿色的条形图显示了他的性别和乘客等级。在这种情况下,绿色意味着性别和乘客阶层同意生存的预测,即“不”。乘客票价和乘客亲属的红色条表示与预测不一致,因此与生存率呈正相关。
模型模拟器的美妙之处在于它是交互式的,因此您可以随意更改所有值,并立即看到对预测的影响。例如,将性别从男性变为女性,存活的概率增加到大约50%。然后将乘客舱位改为头等舱或二等舱,生存率将提高到90%以上。
通过操作所有的滑块和下拉列表,你可以快速地对模型建立一些直觉,即使它是由深度学习构建的。
模型模拟器通过分析模型在单个数据点附近的行为(局部相关性)来创建预测。要查看哪些数据列在全局范围内最重要,请注意列名称下面显示的灰色条(全局相关性)。其中,最长的条出现在性别下面,其次是乘客等级和票价。
有关更多信息,请参见模型模拟器文档。
规范的分析
下一个显而易见的问题是:乘客应该如何优化自己在泰坦尼克号上的生存几率?
在这里,Auto Model也有一个答案!在模拟器的左下方,有一个标有的按钮优化
。按下此按钮,将出现一组对话框帮助您构建配方。既然泰坦尼克号上的男性比女性面临更大的风险,让我们为男性找到一个生存策略。
新闻优化
,并采取以下步骤:
- 下
定义目标
>要优化的类
,选择“是”。新闻下一个
。 - 下
定义约束
>不变的属性
,按下+
按钮,并选择“性别”等于“男性”。新闻下一个
。 - 下
优化参数
,按运行
。 - 新闻
完成
。
结果立即显示在模拟器中,结论是惊人的。泰坦尼克号上最有希望幸存的男乘客是一名4岁的男孩,他只有几个亲戚,乘坐的是二等舱。他存活的概率是91%虽然等级绝对是泰坦尼克号上的一个问题,但即使是一个乘坐三等舱的男孩也有很大的生存机会,即68%,正如你可以通过修改下拉列表中的乘客等级值所看到的那样。
模拟模型清楚地表明,泰坦尼克号上的乘客在救生艇上相当严格地遵守“妇女和儿童优先”的理念。通过移动年龄的滑块,你可以看到老年男性的生存概率持续下降。男性乘客的生存概率在年龄降至50%以下是等级的函数:
- 16岁在三班
- 26岁坐在二等舱
- 39岁,坐头等舱
严格来说,我们还没有真正回答男性乘客应该如何提高生存几率的问题。他的年龄是已知的,一张更贵的机票在经济上可能是负担不起的。但优化器和模型模拟器一起让我们更好地理解了泰坦尼克号的数据。
有关更多信息,请参见规定性分析文档。
没有黑匣子
尽管Auto Model提供了许多有用的工具,但您可能想亲自看看!新闻开放的过程
在模型模拟器的底部,用于构建模型的过程显示在RapidMiner的设计视图中。你可以运行这个进程,你可以修改这个进程,你可以做任何你喜欢的改变!Auto Model为您提供了解决问题的工具,没有黑盒。
我们为什么要强调这一点呢?至少有三个原因:
- 在没有首先了解模型之前,您永远不会将其投入生产。您想要检查模型是如何工作的,并向自己证明一切都是正确的。
- 新的数据科学家可以通过检查流程来学习最佳实践。
- 专家数据科学家通过使用Auto Model过程作为他们自己的模型的起点,从而提高了工作效率。