您正在查看的是RapidMiner Studio 9.2 -版本文档查看最新版本
重要术语
下面列出了使用RapidMiner Studio时需要知道的第一个术语。下面是术语的描述RapidMiner数据类型而且运营商端口说明.
属性
描述场景的信息元素。属性是数据集的表列。
本入门指南中包含的示例集具有性别、年龄、支付方式、最后一次交互和流失属性。
分类
基于已知类别成员的现有数据,预测一个示例属于哪个类别(或类)的过程。类别定义为标签的可能值。(同样的,回归是预测数值结果的过程。)也就是说,分类您构建了一个模型,该模型在训练时使用学习到的规则来预测新数据的类别。
数据集中的每个例子都属于搅动或不搅动的类别。对于那些缺少标签数据的示例,每个示例属于哪个类别的预测来自训练期间学习到的规则。
数据集
的训练集是用来发现预测关系和训练模型的数据。的测试集是用于测试预测关系的模型表示的准确性和意义的数据(通常使用训练集发现)。的新数据集是缺少标签的数据;从训练集中得到的规则被应用于预测新数据集的结果。
方法对模型进行训练和测试customer-churn-data数据集。最初是一个Excel文件,customer-churn-data成为一个可用的数据集时,您导入到RapidMiner。
例子
以其属性为特征的例子有具体的价值,可以与其他例子进行比较。例如数据集的表行。
这个例子customer-churn-data包含993个示例(也称为行)。它们由RapidMiner预先添加的行号标识。
榜样
从属性(列)和示例(行)创建的表。也称为数据或数据集。
这里使用的例子是customer-churn-data,它起源于该文件customer-churn-data.xslx.
标签
与当前问题相关的识别属性。目标是了解或学习此属性的属性标签’s)值,或者学习从常规属性中派生该值的规则,用于示例集中的每一行。有时被称为目标属性或变量,它是用来预测还没有特征的新例子的东西。每个数据集只能有一个标签。
生产是本教程数据集中感兴趣的属性。将客户端属性的角色设置为标签允许您预测,对于每个例子,客户是否会取消。
模型
数据挖掘方法或预测指令。一个模型解释发现的规则和/或预测当前和未来示例的未知情况。
在本教程中,您创建了一个模型,用于预测客户是否会取消订单。您对模型的评估(验证)将返回准确率百分比。
操作符
构建块,按功能分组,用于创建RapidMiner进程。一个操作符具有输入输出端口;对输入执行的操作最终导致提供给输出的内容。操作符参数控制这些行为。在RapidMiner中有超过1500个操作符。操作符,在运营商面板设计视图,既可浏览又可搜索。
在本教程中,您将连接检索操作符(“检索”数据集)到滤波器的例子操作符。生成的标记数据集连接到决策树操作符来确定RapidMiner将用于生成预测的规则集。
面板
每个视图都有自己的一组面板,或与视图相关的工具。它们可以根据需要移动、大小和隐藏。控件访问其他面板查看>显示面板下拉菜单:
请参阅带有标注的图形以识别面板。下面列出了每个视图的默认面板:
- 设计:操作符、存储库、过程、参数、帮助
- 结果:存储库,结果历史记录
- Hadoop数据(如果安装了扩展):Hadoop数据,Hadoop元数据,Hadoop数据日志
参数
一种设置,其值决定运算符的特征或行为。中的参数参数面板设计视图。有规则参数和专家参数。专家参数由斜体名称表示,并通过单击显示/隐藏高级参数链接在面板的底部。
作为群体智慧功能的一部分,RapidMiner Studio根据其他RapidMiner用户的知识和最佳实践提供参数建议。推荐器通过提供关于要更改哪些参数的建议和建议适当的参数值来帮助配置操作符。
类的筛选参数滤波器的例子操作员创建一个训练数据集。
港口
数据移动所经过的点,由两侧的半圆形标记图标或操作符和设计视图。看到端口缩写的列表在下面。
的输出(输出)端口,以查看筛选后的示例集检索的exampleeset (exa)端口滤波器的例子.然后,连接ExampleSet (exa)端口滤波器的例子的右侧的“结果(res)”端口过程查看并单击运行.
预测
目标属性的最可能值;预测都是由数据挖掘得到的。如果你有规则和数据,你就可以预测结果。
本教程中的流程可以预测,例如:如果客户是男性,年龄超过54岁,使用信用卡付款,那么该客户取消的概率很高。
过程
由流设计表示的一组相互连接的操作符,其中每个操作符操作您的数据。一个过程例如,可以加载数据集,转换数据,计算模型,并将模型应用于另一个数据集。
本教程创建一个流程,用于从存储库检索数据集、过滤数据以创建训练集、应用决策树操作符派生预测规则、将模型应用于未标记的数据,并运行验证以评估模型。
流程视图
建筑过程的工作区域。这是画布在设计查看拖拽操作符的位置,或者双击流程时该流程的操作符出现的位置。
在构建流程时,首先拖动数据集,customer-churn-data,在过程面板。接下来,您添加了滤波器的例子把它们连接起来。
存储库
数据和RapidMiner进程的存储机制。最佳实践建议您使用存储库用于数据存储,而不是直接从文件或数据库读取。如果你使用读操作符,元数据将不可用的RapidMiner,限制可用的功能。
默认情况下,RapidMiner Studio配置了各种样例数据集和过程样品存储库的目录。当本教程完成后,您的本地存储库将在新流程中包含新数据集。从存储库面板上还可以访问云存储库.
角色
一个属性的标识标记或功能。角色告诉RapidMiner属性的特殊含义或处理方法。RapidMiner有几个预定义的角色,并支持创建自己的角色。的标签在确定预测目标时,角色是至关重要的。没有分配角色的任何属性都称为常规的属性。
应用标签的角色生产属性。如果数据集包含行号,则将该属性分配为id的角色。所有其他属性都不分配给角色,因此都分配给角色常规属性.
培训
发现预测关系的过程。这个学习过程的结果就是模型。
视图
访问特定功能的“工作区域”。有两个预定义的的观点.一些扩展可以添加自己的视图(例如,Radoop扩展)。您还可以通过单击创建自己的视图新观点……在视图菜单。
RapidMiner数据类型
下面的术语描述了RapidMiner分配给属性的数据类型。定义数据类型指定属性所允许的值类型。RapidMiner支持数字、文本和日期的自然划分。Numeric是数字标签,nominal是文本或字符串,date_time是日期。
属性
所有可能类型(“任何类型”)的父类型。
二名式命名法
正好两个值(例如true/false或yes/no)。
日期
没有时间的日期(例如23.12.2014)。
date_time
日期和时间(例如23.12.2014 17:59)。
file_path
名义数据类型(很少使用),允许更细粒度的区别。可用于将列标记为“仅包含文件路径”。
整数
整数(例如,23、-5或11,024,768)。
名义上的
各种文本值;包括多项式和二项式。
数字
各种数值;包括日期、时间、整数和实数。
多词学名
许多不同的字符串值(例如红色、绿色、蓝色、黄色)。
真正的
分数数字(例如11.23或-0.0001)。
文本
名义数据类型,允许更细粒度的区别(以区别于多项式)。
时间
没有日期的时间(例如17:59)。
运营商端口信息
下表列出了每个端口缩写,并提供了简要说明。
港口缩写 | 意义 | 描述 |
---|---|---|
另 | 方差分析 | 方差分析矩阵用于方差分析显著性检验 |
安 | 注释 | 从输入对象中提取的注释 |
弧 | 存档 | 在执行操作符期间生成的存档文件 |
屁股 | 协会 | 在频繁项集中发现的关联规则 |
丙氨酸 | 属性 | 属性权重(in和out) |
大街 | 平均 | 性能的措施;使用建立在完整交付数据集上的模型来估计性能 |
俱乐部 | 集群模式 | 集群模型创建时,集群的一个例子集 |
俱乐部 | 集群设置 | 给出给聚类操作符的示例集;可以包含具有集群角色的属性(描述每个示例的集群) |
上校 | 集合 | 对象的集合 |
反对 | 条件 | 任何对象都可以提供;参数中指定的条件在此对象上进行测试 |
浸 | 协方差 | 协方差矩阵 |
迪拜国际资本 | 字典 | 用于将给定示例集中的“从”值替换为“到”值的示例集 |
说 | 距离测量 | SimilarityMeasure对象 |
医生 | 文档 | 文档或文档集 |
犯错 | 错误 | 标准误差输出 |
美国东部时间 | 估计性能 | 支持向量机模型的性能向量,给出了该模型统计性能的估计 |
穰 | 榜样 | 榜样 |
费尔 | 文件 | 文件对象 |
佛罗里达州 | 平 | 平面集合或平面聚类模型 |
为 | 公式 | 公式的结果 |
fre | 频繁的 | 用于关联规则学习的频繁项或项集 |
gro | 分组 | 分组模型、属性、项 |
快走 | 分层 | 层次聚类模型 |
可使 | 输入 | 输入源,可以取各种对象 |
工艺教育学院 | 项集 | 频繁项目集(数据中经常一起出现的项目组) |
对未来 | 加入 | 左右示例集的连接 |
实验室 | 带安全标签的数据时 | 在输入中给出的模型应用于示例集,更新的示例集从该端口交付 |
中位数 | 左 | 期望示例集的左输入端口,该端口用作连接的左示例集 |
生活 | 提升图表 | 对给定的模型和实例集提出帕累托图 |
垫 | 矩阵 | 输入示例集的所有属性的相关性矩阵 |
海洋博物馆 | 合并后的 | 合并示例集 |
国防部 | 模型 | 此输出端口的默认模型 |
obj | 对象 | IO对象 |
让奥 | 原始 | 输入示例集将在不更改的情况下传递到此端口 |
出 | 输出 | 输出端口 |
票面价值 | 参数集 | 可应用于运算符的一组参数 |
帕特 | 模式 | 在给定的实例集上应用GSP算法;生成的顺序模式集通过该端口交付 |
每 | 性能 | 所选属性的性能向量 |
精准医疗 | 预处理 | 包含当前过程中操作员参数信息的预处理模型 |
跑 | 随机森林 | 随机森林模型 |
裁判 | 参考 | 提供的参考数据或参考集 |
要求的事情 | 请求设置 | 提供的示例集 |
res | 结果集 | 请求集和引用集的示例之间的距离或相似性 |
钻井平台 | 正确的 | 期望示例集的右输入端口,该示例集用作连接的右示例集 |
中华民国 | ROC曲线 | 计算纳入模型的ROC曲线 |
荷重软化 | 规则 | 在频繁项集中发现的关联规则 |
证券交易委员会 | 第二个 | 输入以附带示例流程中的Generate ID操作符的输出派生的示例集为例 |
赛格 | 段 | 图像的一段 |
选取 | 选择 | 由index参数指定的对象通过此端口返回 |
ses | 会话 | 会话示例集 |
团体 | 意义 | 性能向量比较显著性检验结果通过该端口下发 |
sim卡 | 相似 | 计算给定示例集的每个示例与同一集的每个其他示例之间的相似度 |
罪 | 单 | 给定集合的单个对象,在操作符的内部部分进行处理 |
sta | 叠加 | 堆叠示例或模型 |
国标 | 存储 | 通过这个端口,输入对象被传递而不改变到输出 |
子 | 减数 | 期望有一个榜样;示例集必须有ID属性 |
吃晚饭 | 超集 | 输入示例集的超集 |
用力推 | 通过 | 对象在不改变的情况下传递 |
用力推 | 阈值 | 选择召回操作符的阈值输出 |
交易 | 培训 | 用于训练模型的训练数据(示例集) |
大学 | 联盟 | 输入示例集的并集 |
多人 | 无标号 | 没有标记的例子,因此在训练模型时不使用 |
在野势力的 | 无与伦比的 | 与原始示例集中的指定模式不匹配的示例 |
老 | 不相关的 | 与原始示例集中的指定模式无关的示例 |
力 | 可视化 | 自组织映射(SOM)可视化 |
魏 | 权重 | 属性权重 |
磨破 | 词 | 期望或输出一个单词列表 |
xsl | XSLT | 可扩展样式表语言(XSLT)文档 |