您正在查看9.9 -版的RapidMiner Studio文档点击这里查看最新版本
RapidMiner Studio 9.4.0有什么新功能?
发布:2019年9月25日
以下描述了RapidMiner Studio 9.4.0中修复的错误:
新功能
- 添加地图,无缝可视化地理空间数据。您可以从具有许多不同配置选项的多种地图类型中进行选择,以及针对地理区域、大陆和许多国家的数十种地图。主要特点:
- Choropleth地图:用于通过颜色渐变显示与区域(例如国家或州)相关的数值。区域在数据中由join列定义,该列可以是ISO 3166的两个字母代码,也可以是区域的实际名称。如果每个区域的数据有多个条目,则可以选择在连接列上简单地进行聚合(就像对许多图一样)。
- 分类图:用于可视化属于多个不同类别的区域。这些行通过ISO 3166代码或实际的地区名称再次连接到地图上。然后,值列中的每个不同类别将产生一个颜色组。
- 点地图:这些地图提供纬度和经度支持。每行都成为其位置的标记。为了获得最佳效果,您可以选择合适的地图来显示您的位置(例如世界地图或特定国家)。它还提供了对大小列(想象一下气泡而不是散点)和颜色列的可选支持。颜色可以是数值的,在这种情况下,你可以为你的点获得一个颜色梯度,或者它可以是分类的,在这种情况下,你可以通过图例在地图上单独切换打开/关闭不同的颜色组。
- 就像图表一样,新地图允许您快速选择基本设置来开始,但也可以微调细节,如标记大小和形状,地图背景颜色,是否显示区域或点标签,等等。
- 可视化:增加了新的情节:太阳爆发图表。此图表是交互式的:当选择多个关卡时,您可以深入到每个关卡,以便轻松查看该关卡的详细信息。
- 可视化:增加了新的情节:和弦图
可视化:增加了新的情节:议会图表
添加多标签建模训练一个多标签模型。对每个选定的标签属性执行内部子流程,并训练一个预测模型
添加多标签性能对这样的预测进行评估多标签模型.对每一对预测和标签属性执行内部子流程,并计算性能。
新的操作符替换所有缺失它可以通用地处理所有数据类型,可以处理缺失值和无限值,并作为单个预处理模型提供所有更改(比其他缺失值处理操作符的组合使用更简单,更健壮,但配置不太灵活)
- 新的操作符处理未知值它记住所见的标称值,并在此基础上创建预处理模型。稍后,该模型可以用缺失值替换未知值。
- 新的操作符一种热编码它可以删除具有太多值的标称值,并使用带有比较组的单热编码方法将剩余的值转换为一组数值列(使用简单,比其他类型转换操作符的组合更健壮,但配置不太灵活)。
- 新的操作符追加(强大)它将附加两个数据集,即使它们的值类型不匹配,或者其中一个集与另一个集相比包含额外的值。
- 新的操作符重新调整信心(物流)它将置信度重新调整为使用完整的0-1频谱。虽然基于Platt缩放,但它使用显式逻辑回归模型,并且也适用于两个以上的类。
新的操作符敏感的得分这是一种成本敏感型学习的新方法,也适用于两个以上的班级。与MetaCost相比,该操作器不依赖于袋装模型,从而降低了训练时间,并且模型更简单。相反,它使用随机邻域评分来创建必要的置信度方差,以优化期望成本。
Amazon S3连接增加可选桶参数。这使您能够仅连接到单个存储桶,从而连接到AWSListAllMyBuckets不再需要许可
时间序列分析特点:
- 新模型:多层预测模型.一个元模型,能够使用机器学习模型一次预测多个视界属性
- 新的操作符多层预测训练一个多视界预测模型
- 对每个水平属性(通过属性角色上的正则表达式选择)执行内部子流程,并训练一个预测模型
- 将这些预测模型收集起来,共同构建多层预测模型
- 新的操作符滑动窗口验证哪一个执行滑动窗口验证一般机器学习模型
- 新的操作符多视界性能评估“多视界预测模式”的预测结果
- 对每一对预测和水平属性执行内部子流程,并可以计算一个性能。
- 作为一个集合和一个平均性能提供的性能(如果可以平均)
增强
- 从数据库导入数据现在支持新的连接管理
- 增加了对需要JDBC连接的支持. dll,所以,或. dylib文件工作。现在,您可以简单地将它们作为附加库添加到Driver选项卡中,然后在其中使用它们。参见示例MSSQL的Windows身份验证
- 现在,选择存储库条目将在加载时表现得更加一致,并更好地防止无效选择
- 在为操作符选择连接时,对话框只显示兼容的连接,而不是整个存储库
- 在为操作人员选择过程时(例如:via执行过程),对话框只显示进程,而不是整个存储库
- 改进了创建新连接时的预选存储库
- 增加了连接测试结果的工具提示,以便更容易地读取长错误消息
- 处理异常默认情况下,不再记录详细的堆栈跟踪和错误消息,因为长堆栈跟踪会污染日志。可以通过启用新的“向日志添加详细信息”参数来重新启用此行为。
- 添加AWS标记到Amazon S3操作符
- 可视化:工具提示(前缀,后缀,小数)现在也可以为每个图单独配置。为图表配置它们优先于全局工具提示配置
- 控件可以增加默认行限制可视化行限制修饰符设置首选项。请注意,选择默认限制是出于性能原因,当增加它时,您可能会看到图表性能急剧下降
- 可视化:改进了一些大型数据集图的默认设置,以获得更合理的默认图
- 可视化:在常规显示中导出图表的图像现在与显示的图表更接近(最值得注意的是数据标签)
- 自动模型:所有的预测过程都是统一的、清理的和更好的文档化的
- Auto Model:改进了模型概览性能图表的轴范围计算,以避免所有性能非常接近并且所有显示的数字都相同的边缘情况
- 自动模型:评分过程现在提供示例集作为主要结果,而不是解释的预测对象
- 自动模型:使用新的预处理模型进行缺失值处理
- 自动模型:使用新的预处理模型对未知值进行处理
- Auto Model:采用新的预处理模型进行单热编码
- 自动模型:所有结果都有注释,这些注释现在也用作存储结果的对象名称
- 自动模型:在聚类过程中增加了数据的非规范化,以显示原始数据空间的可视化
- Turbo Prep:改进的匹配计算,现在更准确,以及更快的数字列合并
- Turbo Prep:改进了解释实值列的id值计算的工具提示
- 时间序列:改进了在没有为时间序列操作符选择属性的情况下的UserError和MetaData错误
- 时间序列:改进了大多数时间序列操作符的元数据信息,包括关于所选时间序列属性和窗口时间序列和水平属性的信息
- 时间序列:改进并行执行的内存占用窗口过程操作员和预测验证操作符
修正
- 固定的Davies-Bouldin标准的集群距离性能对于空簇
- 修复了一个可能导致Studio启动在浏览器测试期间挂起的问题
- 设置“元数据中名义值的最大数量”现在在任何地方都得到尊重
- 修正了一些在处理大型元数据时可能会冻结Studio的问题
- 固定冻结时显示大的工具提示
- 删除了交叉验证当抽样类型分层抽样和拆分批处理属性被选中
- 修复了一个可能导致替换操作符右键操作失败
- 修复了在使用注释或重命名操作符时处理非常大的进程时UI冻结的问题
- 在操作符中选择存储库条目现在也将在使用双击时使用相对路径
- 清除的操作符参数现在正确地被存储,当他们失去焦点到另一个操作符
- 修复了可能导致罕见地方(例如旧的报告扩展)显示随机值而不是缺失值(由'?'表示)的错误
- 改进的CSV解析太多的值创建ExampleSet
- 固定导入数据向导能够覆盖连接
- 固定生成销售数据元数据
- 修复了在Amazon S3连接中未设置分隔符时未处理的错误
- 现在,当使用KMS时,在Amazon S3上读取未知文件将导致正确的错误消息
- 可视化:现在根据所选时区显示日期
- 可视化:标称列的限制有时不再报告太多的值,尽管数据实际上不包含那么多不同的标称值
- 可视化:当放大到具有超过5,000个值的散点图时,x轴附近不再出现额外的点
- 可视化:Sankey工具提示现在也尊重前缀、后缀和十进制设置
- 可视化:修复了当设置固定数量的小数时,某些工具提示缺少千位分隔符的问题
- 可视化:修复了在试图通过报表扩展生成报告时可能出现的过程错误,该报告扩展在其配置中包含未知的绘图类型。
发展
- 添加com.rapidminer.example.set.TableSplitter它提供了一个通用框架来拆分Belt(新数据核心的代号)表
- 添加com.rapidminer.connection.ConnectionInformationFileUtils # addNativeLibraries (ConnectionInformation)它将CI中包含的本机库(.dll, .so, .dylib文件)添加到Java本机库查找路径,因此稍后由第三方库调用System.loadLibrary(String)将工作
- 可视化:ChartEventCallbackHandler现在获得完整的系列名称,而不是可能的缩写版本
- 弃用从数据库注册可视化操作员,因为它已经好几年没有工作了