您正在查看9.7 -版的RapidMiner Studio文档点击这里查看最新版本
重要术语
以下列出了使用RapidMiner Studio时需要知道的第一个术语。以下是对术语的描述RapidMiner数据类型和操作端口说明。
属性
描述场景的信息元素。属性是数据集的表列。
本入门指南中包含的示例集具有性别、年龄、支付方式、上次交互和流失率等属性。
分类
基于已知类别隶属关系的现有数据,预测示例属于哪个类别(或类)的过程。类别被定义为标签的可能值。(同样的,回归是预测数值结果的过程。)也就是说,分类你构建了一个模型,经过训练后,它使用学习到的规则来预测新数据的类别。
数据集中的每个例子都属于搅动或不搅动的类别。对于那些缺少标签数据的示例,每个示例所属类别的预测来自于训练期间学习的规则。
数据集
的训练集是用于发现预测关系和训练模型的数据。的测试集是用于测试模型对预测关系表示的准确性和意义的数据(通常使用训练集发现)。的新数据集是缺少标签的数据;从训练集得到的规则被应用于预测新数据集的结果。
在本教程中,您将使用customer-churn-data数据集。最初是一个Excel文件,customer-churn-data成为一个可用的数据集,当你导入到RapidMiner。
例子
以其属性为特征的例子具有可与其他示例进行比较的具体值。数据集的表行就是一个例子。
示例集customer-churn-data包括993个示例(也称为行)。它们由RapidMiner预先添加的行号标识。
榜样
由属性(列)和示例(行)创建的表。也称为数据或数据集。
这里使用的示例集是customer-churn-data,源自文件customer-churn-data.xslx。
标签
与当前问题相关的标识属性。目标是了解或学习这个属性的属性标签的)值,或者学习从示例集中的规则属性中派生它的规则。有时被称为the目标属性或变量,它是用来预测尚未表征的新例子的。每个数据集只能有一个标签。
生产是本教程数据集中感兴趣的属性。将流失属性的角色设置为标签允许您预测,对于每个示例,客户是否会取消。
模型
数据挖掘方法或预测指令。一个模型解释发现的规则和/或预测当前和未来示例的未知情况。
在本教程中,您创建了一个预测客户是否会取消的模型。您对模型的评估(验证)将返回准确率百分比。
操作符
构建块,按功能分组,用于创建RapidMiner进程。一个操作符具有输入和输出端口;对输入执行的操作最终导致提供给输出的内容。操作符参数控制这些行为。RapidMiner中有超过1500个操作符。操作员,在运营商委员会设计视图,既可浏览又可搜索。
在本教程中,您将连接检索操作符(它“检索”数据集)到滤波器的例子操作符。生成的标记数据集连接到决策树操作符来确定RapidMiner将用于生成其预测的规则集。
面板
每个视图都有自己的一组面板,或与视图相关的工具。他们可以移动,大小和隐藏,以适应。控件中访问其他面板视图>显示面板下拉菜单:
请参阅带有标注的图形以识别面板。下面列出了每个视图的默认面板:
- 设计:操作员,存储库,过程,参数,帮助
- 结果:存储库,结果历史
- Hadoop数据(如果安装了扩展):Hadoop数据,Hadoop元数据,Hadoop数据日志
参数
一种设置,其值决定操作员的特征或行为。中的参数参数委员会设计视图。有规则参数和专家参数。控件显示或隐藏专家参数显示/隐藏高级参数面板底部的链接。
作为群体智慧功能的一部分,RapidMiner Studio根据其他RapidMiner用户的知识和最佳实践提供参数建议。推荐程序通过提供要更改哪些参数的建议和建议适当的参数值来帮助配置操作符。
的过滤参数滤波器的例子操作符创建训练数据集。
港口
数据移动的点,由两侧标记有图标的半圆表示设计视图。看到端口缩写列表在下面。
的输出(输出)端口,以查看过滤后的示例集检索的示例设置(exa)端口的操作符滤波器的例子。然后,连接ExampleSet (exa)端口滤波器的例子的结果(res)端口过程查看并点击运行。
预测
目标属性的最可能值;预测都是通过数据挖掘得到的。如果你有规则和数据,你就可以预测结果。
例如,本教程中的流程可能会预测:如果客户是男性,年龄超过54岁,并且使用信用卡付款,那么该客户取消预订的概率很高。
过程
由流设计表示的一组相互连接的操作符,其中每个操作符操作您的数据。一个过程例如,可以加载数据集,转换数据,计算模型,并将模型应用于另一个数据集。
本教程创建一个流程,该流程从存储库中检索数据集,过滤数据以创建训练集,应用决策树操作符派生预测规则,将模型应用于未标记的数据,并运行验证以评估模型。
流程视图
用于构建过程的工作区。这是画布在设计查看拖动操作符的位置,或者双击流程时该流程的操作符出现的位置。
在构建流程时,首先要拖拽数据集,customer-churn-data,到。过程面板。接下来,您添加了滤波器的例子操作员并将它们连接起来。
存储库
数据的存储机制,RapidMiner进程,以及从9.7开始的其他一切。最佳实践建议您使用存储库用于数据存储,而不是直接从文件或数据库读取。如果你使用读操作符,元数据将不可用于RapidMiner,限制了可用的功能。
默认情况下,RapidMiner Studio配置了各种示例数据集和过程样品存储库的目录。当本教程完成后,您的本地存储库将包括数据、进程和连接文件夹。如果您可以访问RapidMiner AI Hub,则存储库面板提供访问RapidMiner AI Hub Repository从9.7开始,你可以连接到versioned项目存储在RapidMiner AI Hub上。
角色
标识:一个属性的标识标签或功能角色告诉RapidMiner属性的特殊含义或处理方法。RapidMiner有几个预定义的角色,并支持创建自己的角色。的标签在确定预测目标时,角色是最重要的。任何没有指定角色的属性都被称为常规的属性。
应用标签角色:生产属性。如果数据集包含行号,则将该属性分配给id的角色。所有其他属性都没有分配角色,因此常规属性。
培训
发现预测关系的过程。这个学习过程的结果就是模型。
视图
您可以访问特定功能的“工作区域”。有两个预定义的的观点。一些扩展可以添加它们自己的视图(例如,Radoop扩展)。您还可以通过单击创建自己的视图新观点……在视图菜单。
RapidMiner数据类型
以下术语描述了RapidMiner分配给属性的数据类型。定义数据类型指定属性允许的值类型。RapidMiner支持数字、文本和日期的自然划分。Numeric是数字的标签,文本或字符串的标称,日期的date_time。
属性
所有可能类型(“任何类型”)的父类型。
二名式命名法
只有两个值(例如true/false或yes/no)。
日期
日期没有时间(例如23.12.2014)。
date_time
日期和时间(例如23.12.2014 17:59)。
file_path
名义数据类型(很少使用),允许更细粒度的区分。可用于将列标记为“仅包含文件路径”。
整数
整数(例如23、-5或11,024,768)
名义上的
各种文本值;包括多项式和二项式。
数字
各种数值;包括日期、时间、整数和实数。
多词学名
许多不同的字符串值(例如红、绿、蓝、黄)。
真正的
小数(例如11.23或-0.0001)。
文本
标称数据类型,允许更细粒度的区分(与多项式区分)。
时间
没有日期的时间(例如17:59)。
操作端口信息
下表列出了每个端口的缩写,并提供了简要说明。
港口缩写 | 意义 | 描述 |
---|---|---|
另 | 方差分析 | 方差分析显著性检验的方差分析矩阵 |
安 | 注释 | 从输入对象中提取的注释 |
弧 | 存档 | 在操作符执行期间生成的存档文件 |
屁股 | 协会 | 在频繁项集中发现的关联规则 |
丙氨酸 | 属性 | 属性权重(in和out) |
大街 | 平均 | 性能的措施;使用建立在完整交付数据集上的模型估计性能 |
俱乐部 | 集群模式 | 群集时创建的群集模型 |
俱乐部 | 集群设置 | 给聚类算子的实例集;可能包含具有集群角色的属性(描述每个示例的集群) |
上校 | 集合 | 对象集合 |
反对 | 条件 | 可以提供任何对象;在该对象上测试参数中指定的条件 |
浸 | 协方差 | 协方差矩阵 |
迪拜国际资本 | 字典 | 示例集用于将给定示例集中的'from'值替换为'to'值 |
说 | 距离测量 | SimilarityMeasure对象 |
医生 | 文档 | 文档或文档集 |
犯错 | 错误 | 标准误差输出 |
美国东部时间 | 估计性能 | 支持向量机模型的性能向量,给出了该模型的统计性能估计 |
穰 | 榜样 | 榜样 |
费尔 | 文件 | 文件对象 |
佛罗里达州 | 平 | 平面收集或平面聚类模型 |
为 | 公式 | 公式的结果 |
fre | 频繁的 | 用于关联规则学习的频繁项或项集 |
gro | 分组 | 分组模型、属性、项 |
快走 | 分层 | 分层聚类模型 |
可使 | 输入 | 输入源,可取各种对象 |
工艺教育学院 | 项集 | 频繁项集(经常在数据中一起出现的项组) |
对未来 | 加入 | 左、右示例集的连接 |
实验室 | 带安全标签的数据时 | 将输入中给出的模型应用于样例集,更新后的样例集从该端口交付 |
中位数 | 左 | 期望示例集的左输入端口,用作连接的左示例集 |
生活 | 提升图表 | 对给定的模型和示例集使用帕累托图 |
垫 | 矩阵 | 输入示例集的所有属性的关联矩阵 |
海洋博物馆 | 合并后的 | 合并样例集 |
国防部 | 模型 | 此输出端口的默认模型 |
obj | 对象 | IO对象 |
让奥 | 原始 | 输入示例集在不更改到该端口的情况下传递 |
出 | 输出 | 输出端口 |
票面价值 | 参数集 | 可应用于运算符的一组参数 |
帕特 | 模式 | 在给定的样例集上应用GSP算法;生成的顺序模式集通过该端口传递 |
每 | 性能 | 所选属性的性能矢量 |
精准医疗 | 预处理 | 预处理模型,包含有关当前过程中操作员参数的信息 |
跑 | 随机森林 | 随机森林的模型 |
裁判 | 参考 | 提供参考数据或参考集 |
要求的事情 | 请求设置 | 提供的示例集 |
res | 结果集 | 请求集和参考集的示例之间的距离或相似度 |
钻井平台 | 正确的 | 期望示例集的正确输入端口,该示例集用作连接的正确示例集 |
中华民国 | ROC曲线 | 计算纳入模型的ROC曲线 |
荷重软化 | 规则 | 在频繁项集中发现的关联规则 |
证券交易委员会 | 第二个 | 输入采用从附带示例流程中的Generate ID操作符的输出派生的示例集 |
赛格 | 段 | 图像段 |
选取 | 选择 | 由index参数指定的对象通过该端口返回 |
ses | 会话 | 会话示例集 |
团体 | 意义 | 性能矢量比较显著性检验结果通过该端口下发 |
sim卡 | 相似 | 给定示例集的每个示例与同一集的所有其他示例之间的计算相似度 |
罪 | 单 | 给定集合的单个对象,在操作符的内部部分处理 |
sta | 叠加 | 堆叠例子或模型 |
国标 | 存储 | 通过这个端口,传入的输入对象不需要更改为输出 |
子 | 减数 | 期望树立榜样;示例集必须具有ID属性 |
吃晚饭 | 超集 | 输入示例集的超集 |
用力推 | 通过 | 对象被传递而不改变 |
用力推 | 阈值 | 选择召回操作符的阈值输出 |
交易 | 培训 | 训练数据以训练模型(示例集) |
大学 | 联盟 | 输入示例集的并集 |
多人 | 无标号 | 未标记的示例,因此在训练模型时不使用 |
在野势力的 | 无与伦比的 | 与原始示例集中指定模式不匹配的示例 |
老 | 不相关的 | 与原始示例集中的指定模式无关的示例 |
力 | 可视化 | 自组织地图(SOM)可视化 |
魏 | 权重 | 属性权重 |
磨破 | 词 | 期望或输出一个单词列表 |
xsl | XSLT | 可扩展样式表语言(XSLT)文档 |