重要术语
下面列出了使用RapidMiner Studio时需要知道的第一个术语。下面的术语是对RapidMiner数据类型而且运营商端口描述.
属性
描述场景的信息元素。属性是数据集的表列。
本入门指南中包含的示例集具有性别、年龄、支付方式、最后一次交互和流失率等属性。
分类
基于已知类别成员的现有数据,预测一个例子属于哪个类别(或类别)的过程。类别被定义为标签的可能值。(同样的,回归是预测数值结果的过程。)也就是说,与分类构建一个模型,在训练之后,使用学习到的规则来预测新数据的类别。
数据集中的每个例子都属于搅动或不搅动的类别。对于那些缺少标签数据的示例,对每个示例属于哪一类的预测来自于训练过程中学习到的规则。
数据集
的训练集是用于发现预测关系和训练模型的数据。的测试集是用于测试预测关系的模型表示的准确性和意义(通常使用训练集发现)的数据。的新数据集是缺少标签的数据;从训练集得到的规则被用于预测新数据集的结果。
方法来训练和测试模型customer-churn-data数据集。最初是一个Excel文件,customer-churn-data成为一个可用的数据集,当您导入到RapidMiner。
例子
以其属性为特征的例子有具体的价值,可以与其他例子进行比较。例子是数据集的表行。
设置的例子customer-churn-data包括993个示例(也称为行)。它们由RapidMiner预先添加的行号标识。
榜样
从属性(列)和示例(行)创建的表。也称为数据或数据集。
这里使用的示例集是customer-churn-data,它源自该文件customer-churn-data.xslx.
标签
与当前问题相关的识别属性。目标是了解或学习这个属性的标签的值,或者学习从常规属性派生该值的规则,用于示例集中的每一行。有时被称为目标属性或变量,它是用来预测尚未被表征的新例子的东西。每个数据集只能有一个标签。
生产是本教程数据集中感兴趣的属性。将搅动属性的角色设置为标签允许您预测,对于每个例子,客户是否会取消。
模型
数据挖掘方法或预测指令。一个模型为当前和未来的示例解释发现的规则和/或预测未知的情况。
在本教程中,您创建了一个预测客户是否会取消的模型。您对模型的评估(验证)返回精度百分比。
操作符
构建块,按函数分组,用于创建RapidMiner进程。一个操作符具有输入输出端口;在输入上执行的操作最终会导致提供给输出的内容。操作符参数控制这些行为。在RapidMiner中有超过1500个操作符。运营商,运营商面板的设计视图,都是可浏览和可搜索的。
在本教程中,您将连接检索操作符(该操作符“检索”数据集)到滤波器的例子操作符。生成的标记数据集连接到决策树运算符来确定RapidMiner用来产生预测的规则集。
面板
每个视图都有自己的一组面板,或与视图相关的工具。它们可以根据需要移动、大小和隐藏。,可以访问其他面板查看> Show Panel下拉菜单:
参见带有标注的图形以识别面板。下面列出了每个视图的默认面板:
- 设计:操作符、存储库、过程、参数、帮助
- 结果:存储库,结果历史记录
- Hadoop数据(如果扩展安装):Hadoop数据,Hadoop元数据,Hadoop数据日志
参数
其值决定运算符的特征或行为的一种设置。中的参数参数面板的设计视图。有常规参数和专家参数。专家参数用斜体名称表示,单击可显示或隐藏显示/隐藏高级参数链接在面板底部。
作为智慧人群功能的一部分,RapidMiner Studio根据其他RapidMiner用户的知识和最佳实践提供参数建议。推荐器通过提供关于要更改哪些参数的建议和建议适当的参数值来帮助配置操作符。
类的筛选参数滤波器的例子操作员创建一个训练数据集。
港口
数据移动所经过的点,由标记在两侧的半圆图标或操作符和设计视图。看到端口缩写列表在下面。
要查看筛选的示例集,请连接的Output (out)端口检索的示例集(exa)端口滤波器的例子.然后,连接ExampleSet (exa)端口滤波器的例子的“结果(res)”端口过程视图和点击运行.
预测
目标属性的最可能值;预测都是由数据挖掘得到的。如果你有规则和数据,你就可以预测结果。
本教程中的过程可以预测,例如:如果客户是男性,年龄超过54岁,使用信用卡支付,那么该客户取消的概率很高。
过程
由流设计表示的一组相互关联的操作符,其中每个操作符操作您的数据。一个过程例如,可以加载数据集,转换数据,计算模型,并将模型应用到另一个数据集。
本教程创建一个流程,从存储库中检索数据集,筛选数据以创建训练集,应用决策树运算符派生预测规则,将模型应用于未标记的数据,并运行验证以评估模型。
流程视图
建筑过程的工作区域。这是画布在设计查看您拖动操作符的位置,或者双击某个流程时该流程的操作符出现的位置。
在构建流程时,首先拖拽数据集,customer-churn-data,到过程面板。接下来你添加一个滤波器的例子操作员和连接他们。
存储库
数据的存储机制、RapidMiner处理以及从9.7开始的其他一切。最佳实践建议您使用存储库用于数据存储,而不是直接从文件或数据库读取。如果你使用读操作符,元数据将不可用的RapidMiner,限制了可用的函数。
默认情况下,RapidMiner Studio配置了各种样例数据集和过程样品存储库的目录。本教程完成后,您的本地存储库将包括数据、过程和连接文件夹。如果您可以访问RapidMiner AI Hub,则存储库面板提供访问RapidMiner AI Hub Repository从9.7开始,你可以连接到版本化的项目存储在RapidMiner AI Hub上。
角色
属性的标识标记或功能。角色告诉RapidMiner属性的特殊含义或处理方法。RapidMiner有几个预定义的角色,并支持创建自己的角色。的标签在确定预测目标时,角色是最重要的。没有分配角色的任何属性都称为常规的属性。
应用标签角色生产属性。如果数据集包含行号,则将该属性分配给id的角色。所有其他属性都没有被分配角色,因此被分配了角色常规属性.
培训
发现预测关系的过程。这个学习过程的结果就是模型。
视图
一个“工作区域”,您可以在其中访问特定的功能。有两个预定义的的观点.一些扩展可以添加它们自己的视图(例如,Radoop扩展)。您还可以通过单击创建自己的视图新观点……在视图菜单。
RapidMiner数据类型
以下术语描述了RapidMiner分配给属性的数据类型。定义数据类型指定属性所允许的值的类型。RapidMiner支持数字、文本和日期的自然分割。Numeric是数字的标签,标称是文本或字符串,date_time是日期。
属性
所有可能类型的父类型(“any类型”)。
二名式命名法
恰好有两个值(例如true/false或yes/no)。
日期
没有时间的日期(例如23.12.2014)。
date_time
日期和时间(例如23.12.2014 17:59)。
file_path
名义数据类型(很少使用),允许更细粒度的区分。可用于将列标记为“仅包含文件路径”。
整数
一个整数(例如,23、-5或11,024,768)。
名义上的
各种文本值;包括多项式和二项式。
数字
各种数字值;包括日期、时间、整数和实数。
多词学名
许多不同的字符串值(例如红、绿、蓝、黄)。
真正的
小数(例如11.23或-0.0001)。
文本
名义数据类型,允许更细粒度的区分(以区别于多项式)。
时间
没有日期的时间(例如17:59)。
运营商端口信息
下表列出了每个端口缩写并提供了简要说明。
港口缩写 | 意义 | 描述 |
---|---|---|
另 | 方差分析 | 方差分析矩阵用于方差分析显著性检验 |
安 | 注释 | 从输入对象中提取的注释 |
弧 | 存档 | 在执行操作符期间生成的存档文件 |
屁股 | 协会 | 在频繁项集中发现的关联规则 |
丙氨酸 | 属性 | 属性权重(输入和输出) |
大街 | 平均 | 性能的措施;使用建立在完整交付数据集上的模型对性能进行估计 |
俱乐部 | 集群模式 | 在对一个示例集进行聚类时创建的群集模型 |
俱乐部 | 集群设置 | 聚类运算符的示例集;可以包含具有集群角色的属性(描述每个示例的集群) |
上校 | 集合 | 的对象集合 |
反对 | 条件 | 任何对象都可以提供;在此对象上测试参数中指定的条件 |
浸 | 协方差 | 协方差矩阵 |
迪拜国际资本 | 字典 | 示例集,用于将给定示例集中的“从”值替换为“到”值 |
说 | 距离测量 | SimilarityMeasure对象 |
医生 | 文档 | 文档或文档集 |
犯错 | 错误 | 标准错误输出 |
美国东部时间 | 估计性能 | 支持向量机模型的性能向量,给出了该模型的统计性能的估计 |
穰 | 榜样 | 榜样 |
费尔 | 文件 | 文件对象 |
佛罗里达州 | 平 | 平面集合或平面聚类模型 |
为 | 公式 | 公式的结果 |
fre | 频繁的 | 用于关联规则学习的频繁项或项集 |
gro | 分组 | 分组模型、属性、项目 |
快走 | 分层 | 层次聚类模型 |
可使 | 输入 | 输入源,可以取各种对象 |
工艺教育学院 | 项集 | 频繁项集(数据中经常一起出现的项组) |
对未来 | 加入 | 左和右示例集的连接 |
实验室 | 带安全标签的数据时 | 在输入中给出的模型应用于示例集,更新后的示例集从该端口发送 |
中位数 | 左 | 左输入端口,需要一个示例集,该示例集用作连接的左示例集 |
生活 | 提升图表 | 举帕累托图为给定的模型和例子集 |
垫 | 矩阵 | 输入示例集所有属性的相关性矩阵 |
海洋博物馆 | 合并后的 | 合并后的榜样 |
国防部 | 模型 | 此输出端口的默认模型 |
obj | 对象 | IO对象 |
让奥 | 原始 | 输入示例集传递时不更改此端口 |
出 | 输出 | 输出端口 |
票面价值 | 参数集 | 可应用于运算符的一组参数 |
帕特 | 模式 | 将GSP算法应用于给定的实例集;生成的顺序模式集通过这个端口交付 |
每 | 性能 | 所选属性的性能向量 |
精准医疗 | 预处理 | 包含当前过程中算子参数信息的预处理模型 |
跑 | 随机森林 | 随机森林模型 |
裁判 | 参考 | 提供参考数据或参考集 |
要求的事情 | 请求设置 | 提供了榜样 |
res | 结果集 | 请求集和引用集示例之间的距离或相似性 |
钻井平台 | 正确的 | 右输入端口,期望一个示例集,该示例集用作连接的右示例集 |
中华民国 | ROC曲线 | 计算纳入模型的ROC曲线 |
荷重软化 | 规则 | 在频繁项集中发现的关联规则 |
证券交易委员会 | 第二个 | Input接受一个从附带的示例流程中的Generate ID操作符的输出派生的示例集 |
赛格 | 段 | 图像的片段 |
选取 | 选择 | 由索引参数指定的对象通过此端口返回 |
ses | 会话 | 会话示例集 |
团体 | 意义 | 性能向量比较显著性检验结果通过该端口下发 |
sim卡 | 相似 | 计算给定样本集的每个样本与同一样本集的其他样本之间的相似度 |
罪 | 单 | 给定集合的单个对象,在运算符的内部处理 |
sta | 叠加 | 堆叠示例或模型 |
国标 | 存储 | 通过这个端口,输入对象被传递,而不更改为输出 |
子 | 减数 | 期望一个示例集;示例集必须具有ID属性 |
吃晚饭 | 超集 | 输入示例集的超集 |
用力推 | 通过 | 对象被传递而不改变 |
用力推 | 阈值 | 选择召回操作符的阈值输出 |
交易 | 培训 | 用于训练模型的训练数据(示例集) |
大学 | 联盟 | 输入示例集的并集 |
多人 | 无标号 | 没有标记的示例,因此在训练模型时不使用 |
在野势力的 | 无与伦比的 | 与原始示例集中的指定模式不匹配的示例 |
老 | 不相关的 | 与原始示例集中的指定模式无关的示例 |
力 | 可视化 | 自组织地图(SOM)可视化 |
魏 | 权重 | 属性权重 |
磨破 | 词 | 期望或输出一个单词列表 |
xsl | XSLT | 可扩展样式表语言(XSLT)文档 |