类别

版本

您正在查看的是RapidMiner Studio 9.1 -版本文档查看最新版本

汽车模型

参见视频介绍的汽车模型(更短的|).

无论您是刚开始使用RapidMiner,还是老手,自动模型都可以使您的生活更轻松。Auto Model是RapidMiner Studio的扩展,它加速了构建和验证模型的过程。最重要的是,它创建了一个您自己可以修改或投入生产的过程没有黑匣子

Auto Model解决了三大类问题:

  • 预测
  • 聚类
  • 离群值

在预测类别中,您可以同时解决分类和回归问题。Auto Model可以帮助您评估数据,为问题的解决方案提供相关模型,并在计算完成后帮助您比较这些模型的结果。

Auto Model不仅可以帮助您获得结果;它也能帮助你理解这些结果即使是像深度学习这样内部逻辑可能很难理解的模型。在RapidMiner Studio中,Auto Model显示为一个视图,位于Design视图、Results视图和Turbo Prep旁边。

如果数据处于分散或不一致状态,尚未准备好进行模型构建,请参见涡轮预科

例子:预测泰坦尼克号上的幸存者

为了展示Auto Model是如何工作的,我们将使用与RapidMiner Studio捆绑在一起的数据集之一,泰坦尼克号数据集,并使用它来预测泰坦尼克号上的生存。开始,选择汽车模型通过按RapidMiner Studio顶部的按钮查看。

选择数据

启动Auto Model之后,第一步是从一个存储库中选择一个数据集。如果你的数据不在存储库中,点击屏幕顶部的链接,上面写着“先导入新数据”。

在我们的示例中,可以在下面找到泰坦尼克号数据集样品>数据.选择此数据集,并单击下一个在屏幕底部。

选择任务

选择了一个数据集之后,您必须决定要解决哪种类型的问题。Auto Model识别了三个不同的任务:

  • 预测
  • 集群
  • 离群值

在我们的例子中,我们想要预测泰坦尼克号上的存活率,所以你应该选择预测,然后单击“幸存”一栏,然后单击下一个

准备目标

因为“幸存”只有两个值,“是”或“否”,所以这个问题是一个分类问题。一般来说,对于分类问题,Auto Model将显示一个柱状图,其中包含每个类中的数据点数量。当类数超过10个时,只显示数据点最多的10个类。

最高兴趣等级

最高兴趣等级之后,当结果显示出来时,就变得很重要了,因为诸如“精度”和“召回率”这样的性能值取决于知道哪些类应该被解释为“积极”结果。在泰坦尼克号的例子中最高兴趣等级是“是的”。

将类映射到新值

这一步包括将目标值从“Yes”和“No”重命名为其他一些值的选项。当有两个以上的类时,这个选项可能更有用,因为它可以用来组合类。输入新值时,请确保按下输入关键。在我们的例子中,我们将忽略这个选项。点击下一个继续。

选择输入

不是所有的数据列都能帮助你做出预测。通过丢弃一些数据列,您可以加快您的模型和/或提高其性能。但是你怎么做决定呢?关键是你在寻找模式。如果数据中没有一些变化和一些可识别的模式,数据就不太可能有用。

要注意的内容的快速总结包括以下内容,其值显示在每个数据列的质量栏旁边。

  • 列与目标列的镜像过于紧密,或者根本不镜像(相关性),
  • 几乎所有值都不同的列(ID-ness),
  • 几乎所有值都相同的列(稳定性),
  • 缺少值的列(missing)。

Auto Model用颜色编码的状态气泡(红/黄/绿)总结情况。作为一般规则,至少取消那些有红色状态气泡的列是一个好主意,但当然,您可以取消选择任何您喜欢的列,与它们的状态无关。机器学习模型的输入将只包括选定的列。

在泰坦尼克号的例子中,“名字”和“票号”相当于身份证。对于大多数乘客来说,“机舱”的价值是缺失的。因此,在构建模型时,这三个带有红色状态气泡的列应该被丢弃。没有一个对发现规律有帮助。

“救生艇”有一个黄色状态气泡,因为这一栏的数据与“幸存”高度相关。“救生艇”和“幸存”实际上是同义词,因此最好从“救生艇”列中删除数据,让模型发现生存的潜在原因。

换句话说,您希望模型帮助您制定计划。乘客无法提前知道他是否会在救生艇上,所以这不是计划的一部分,但他可以决定支付多少船票,以及是否带家人一起去。

在本例中,您还应该取消选择带有黄色状态气泡的数据“Life Boat”,并按下下一个

模型类型

Auto Model为您提供了与您的问题相关的模型选择。如果没有时间限制,最好的选择可能是构建所有这些组件,并在完成后比较它们的性能。通常,您必须决定您的优先级:是完成模型的准确性,还是构建模型所需的时间?自动模型帮助你到达一个合理的妥协。

在泰坦尼克号的例子中,Auto Model提供了以下模型:

新闻运行建立模型并产生结果。

结果

根据您的数据集和您选择的模型,您可能需要等待结果。顶部的进度条跟踪正在进行的计算的状态。,可以随时停止模型构建停止按钮。中间结果将在它们可用时显示出来,例如,在比较>概述

在Titanic数据集的例子中,梯度增强树(XGBoost)模型的构建时间最长,但它也是最准确的模型。看到比较>概述比较模型的准确性和运行时间。考虑到梯度增强树相对于深度学习的边际性能优势,以及相当长的运行时间,在这种情况下,您可能更喜欢使用深度学习模型。

模型模拟器和其他有用的操作符

Auto Model不仅可以帮助您获得结果;它还能帮助你理解这些结果。深度学习因创建精确但非直观的模型而臭名昭著;见证下面显示的模型描述深度学习>模型.在接下来的内容中,我们将使用Auto model提供的一些有用的用户界面来探索深度学习模型。

模型模拟

要获得更好的见解,请选择深度学习>模拟器.在这里,您将看到一个用户界面,左侧是滑块和下拉列表,右侧是柱状图。对于初始状态,模型模拟器选择平均数据值。在泰坦尼克号上,这一平均值相当于一名30岁左右的三等舱男性乘客,船上亲属相对较少。

根据右上方的柱状图,最有可能的情况是,这位乘客会生存。他活下来的概率是11%下面的柱状图解释了他的缺点:最重要的是他的性别和乘客等级,用绿色柱状显示。在此背景下,绿色意味着性别和乘客阶级同意生存的预测,即“不”。“乘客票价”和“机上亲属”的红色条表示与预测不一致,因此与存活率呈正相关。

Model Simulator的美妙之处在于它是交互式的,因此您可以随意更改所有值,并立即看到对预测的影响。例如,将性别从男性改为女性,生存概率增加到大约50%。然后将乘客等级改为1级或2级,生存概率增加到90%以上。

通过操作所有的滑块和下拉列表,你可以快速地为模型建立一些直觉,即使它是由深度学习构建的。

模型模拟器通过分析模型在单个数据点附近的行为(局部相关)来创建预测。要查看哪些数据列具有最大的全局重要性,请注意列名下显示的灰色条(全局相关性)。其中,最长的栏出现在性别下,其次是乘客等级和乘客票价。

有关更多信息,请参见模型模拟器文档

规范的分析

接下来一个显而易见的问题是:乘客应该如何最大化自己在泰坦尼克号上的生存机会?

在这里,自动模型也有一个答案!在模拟器的左下角,有一个按钮优化.按下这个按钮,一组对话框将帮助您构建食谱。既然泰坦尼克上的男性比女性面临的风险更大,让我们来看看男性的生存策略吧。

新闻优化,并采取以下步骤:

  1. 定义目标>要优化的类。,选择“是”。新闻下一个
  2. 定义约束>不变的属性,按+按钮,选择“性别”等于“男性”。新闻下一个
  3. 优化参数,按运行
  4. 新闻完成

结果立即显示在模拟器中,结论是惊人的。泰坦尼克号上最有希望生还的男乘客是一个4岁的男孩,他只有几个亲戚,乘坐二等舱。他的存活率是91%虽然在泰坦尼克号上,等级绝对是一个问题,但即使是乘坐三等舱的男孩也有很大的幸存几率,即68%,正如你可以从下拉列表中修改乘客等级的值。

模型模拟器清楚地表明,泰坦尼克号上的乘客在救生艇上严格遵守“妇女和儿童优先”的理念。通过移动年龄的滑块,您可以看到老年男性的生存概率不断降低。男性乘客的幸存概率下降到50%以下的年龄是等级的函数:

  • 16岁,坐三等舱
  • 26岁,坐二等舱
  • 39岁坐头等舱

严格来说,我们还没有真正回答男性乘客应该如何提高生存几率的问题。他的年龄是已知的,更昂贵的门票可能在经济上是无法承受的。但是优化器和模型模拟器一起让我们更好地理解了泰坦尼克号的数据。

有关更多信息,请参见规范性分析文档

没有黑匣子

虽然Auto Model提供了很多有用的工具,但你可能想自己看看!新闻开放的过程在模型模拟器的底部,用于构建模型的过程显示在RapidMiner的Design视图中。你可以运行这个过程,你可以修改这个过程,你可以做任何你喜欢的改变!Auto Model为您提供解决问题的工具,没有黑盒。

我们为什么要强调这一点?至少有三个原因:

  1. 在没有首先理解模型之前,您永远不会将其投入生产。您希望检查模型是如何工作的,并向自己证明一切都是正确的。
  2. 新的数据科学家可以通过检查流程来学习最佳实践。
  3. 通过使用自动模型流程作为自己模型的起点,专业数据科学家可以提高工作效率。