类别

版本

RapidMiner Studio 9.4.0有什么新功能?

发布:2019年9月25日

以下描述了RapidMiner Studio 9.4.0中的错误修复:

新功能

  • 添加地图无缝可视化地理空间数据。你可以选择多种地图类型和许多不同的配置选项,以及几十个地图的地理区域,大陆,当然还有许多单独的国家。主要特点:
    • Choropleth map:用于通过颜色渐变显示与区域(例如一个国家或一个州)相关的数值。区域在数据中由连接列定义,该连接列可以是ISO 3166两个字母的代码,也可以是区域的实际名称。如果每个区域的数据有多个条目,则可以选择在连接列上进行聚合(就像对许多图一样)。
    • 分类地图:用于可视化属于许多不同类别的区域。行通过ISO 3166代码或实际的地区名称再次连接到地图。值列中的每个不同类别将产生一个颜色组。
    • 点地图:这些地图提供纬度和经度支持。每一行都成为其位置的标记。为了达到最佳效果,您可以选择适当的地图来显示您的位置(例如世界地图或特定国家)。它还提供了对大小列(想象气泡而不是分散的圆点)以及颜色列的可选支持。颜色可以是数值的,在这种情况下,你可以为你的点获得颜色梯度,也可以是分类的,在这种情况下,你可以获得不同的颜色组,你可以通过图例在地图上单独切换开/关。
    • 就像图表一样,新的地图允许您快速选择基本设置开始,但也可以微调细节,如标记的大小和形状,地图背景颜色,是否显示区域或点标签,等等。
  • 可视化:添加了新的情节:太阳爆发图。此图表是交互式的:当选择多个级别时,您可以向下钻取到每个级别,以轻松查看该级别的详细信息。
  • 可视化:添加了新的情节:和弦图
  • 可视化:增加了新的情节:议会图

  • 添加多标签建模训练一个多标签模型。对每个选定的标签属性执行内部子流程,并训练一个预测模型

  • 添加多标签性能对这样的预测进行评估多标签模型.对每对预测和标签属性执行内部子流程,计算性能。

  • 新的操作符替换所有缺失通用地处理所有数据类型,可以处理缺失值和无限值,并将所有更改作为单一预处理模型提供(使用更简单,比其他缺失值处理操作符的组合更健壮,但配置不太灵活)

  • 新的操作符处理未知值它会记住看到的标称值并在此基础上创建一个预处理模型。之后,该模型可以通过缺失替换未知值。
  • 新的操作符一种热编码它可以删除带有太多值的标称值,并使用具有比较组的one-hot编码方法将剩余值转换为一组数值列(使用简单,比其他类型转换运算符的组合更健壮,但配置不太灵活)
  • 新的操作符追加(强大)它将附加两个数据集,即使它们的值类型不匹配,或者其中一个集与另一个集相比包含额外的值。
  • 新的操作符重新评估信心(物流)它会重新调整置信度,以使用完整的0-1频谱。虽然基于普氏缩放,但该模型使用了显式逻辑回归模型,并且适用于两个以上的类。
  • 新的操作符敏感的得分:这是一种成本敏感学习的新方法,也适用于两个以上的班级。与MetaCost相比,该操作符不依赖于可以减少训练时间并使模型更简单的袋装模型。相反,它使用随机邻域评分来创建优化预期成本所需的置信度方差。

  • Amazon S3连接增加可选桶参数。这使您可以只连接到单个桶,从而连接到AWSListAllMyBuckets不再需要许可

  • 时间序列分析特点:

    • 新模型:多层预测模型.一个元模型,能够使用机器学习模型一次预测多个水平属性
    • 新的操作符多层预测训练多视界预测模型
      • 内部子流程针对每个层属性(由属性角色上的正则表达式选择)执行,并训练一个预测模型
      • 预测模型被收集并建立在一起的多水平预测模型
    • 新的操作符滑动窗口验证哪个对一般机器学习模型执行滑动窗口验证
    • 新的操作符多层次性能评价“多水平预测模型”的预测效果
      • 对于每对预测和水平属性执行内部子流程,可以计算Performance。
      • 作为一个集合和一个平均性能提供的性能(如果可以平均的话)

增强

  • 从数据库导入数据现在支持新的连接管理
  • 增加了对JDBC连接的支持. dll所以,或. dylib文件工作。您现在可以简单地将它们作为额外的库添加到Driver选项卡中,然后在那里使用它们。请看例子Windows MSSQL认证
  • 现在,在加载时选择存储库条目的行为将更加一致,并更好地防止无效选择
  • 在为操作符选择连接时,对话框只显示兼容的连接,而不是整个存储库
  • 当为操作符选择一个过程时(例如via执行过程),对话框只显示进程,而不是整个存储库
  • 改进了创建新连接时预选的存储库
  • 增加了连接测试结果的提示,使其更容易阅读长错误消息
  • 处理异常默认情况下,不再记录详细的堆栈跟踪和错误消息,因为长堆栈跟踪会污染日志。可以通过启用新的“向日志中添加详细信息”参数来重新启用此行为。
  • 添加AWS标记到Amazon S3操作符
  • 可视化:工具提示(前缀、后缀、小数)现在也可以为每个图单独配置。为绘图配置它们优先于全局工具提示配置
  • 可视化:它们现在可以通过使用可视化行限制修饰符设置首选项。请注意,选择默认限制是出于性能原因,当增加它时,您可能会看到图表性能的急剧下降
  • 可视化:改进了一些大型数据集的默认设置,以获得更合理的默认图
  • 可视化:在常规显示上导出图表的图像现在更接近于显示的图表(最值得注意的是数据标签)
  • 自动模型:所有的预测过程都是统一的、清理的,并且有更好的文档
  • 自动模型:改进了模型概览性能图的轴距计算,以避免所有性能非常接近且所有显示的数字都相同的边缘情况
  • 自动模型:评分过程现在将示例集作为主要结果,而不是解释的预测对象
  • 自动模型:使用新的预处理模型处理缺失值
  • 自动模型:使用新的预处理模型处理未知值
  • 自动模型:采用新的预处理模型进行单热编码
  • 自动模型:所有的结果都被注释,这些注释现在也被用作存储结果的对象名称
  • Auto Model:在聚类过程中增加了数据的反规格化,在原始数据空间中显示可视化
  • 涡轮准备:改进匹配计算,现在更准确,以及更快的数值列合并
  • Turbo Prep:改进了解释实值列id计算的工具提示
  • 时间序列:改进了在没有为时间序列操作符选择属性时的UserError和MetaData错误
  • 时间序列:改进了大多数时间序列算子的元数据信息,包括所选时间序列属性以及加窗时间序列和视界属性的信息
  • 时间序列:改进并行执行的内存占用窗口过程操作员和预测验证操作符

修正

  • 固定的Davies-Bouldin标准的集群距离性能对于空集群
  • 修复了浏览器测试期间可能导致Studio启动挂起一段时间的问题
  • 设置“元数据中标称值的最大数量”现在在任何地方都得到尊重
  • 修复了处理大型标称元数据时可能冻结Studio的一些问题
  • 固定冻结时显示大的工具提示
  • 删除警告交叉验证抽样类型是分层抽样和对批处理属性进行拆分被选中
  • 修正了一个可能导致替换操作符右击失败的操作
  • 固定UI冻结时,工作在非常大的进程,同时使用注释或重命名操作符
  • 在操作符中选择存储库条目现在也将在使用双击时使用相对路径
  • 当已清除的操作符参数失去对另一个操作符的关注时,它们现在正确地存储
  • 修复了可能导致罕见的地方(例如旧的报告扩展)显示一个随机值而不是一个缺失的值(由'?'表示)的错误。
  • 中太多值的改进CSV解析创建ExampleSet
  • 固定导入数据向导能够覆盖连接
  • 固定生成销售数据元数据
  • 修正了在Amazon S3连接中未设置分隔符时未处理的错误
  • 现在,当使用KMS时,在Amazon S3上读取未知文件会导致正确的错误消息
  • 可视化:现在根据所选时区显示日期
  • 可视化:对标称列的限制有时不再报告太多值,尽管数据实际上不包含那么多不同的标称值
  • 可视化:当放大到有超过5000个值的散点图时,x轴附近不再出现额外的点
  • 可视化:Sankey工具提示现在也支持前缀、后缀和十进制设置
  • 可视化:修正了当设置固定数量的小数时,某些工具提示中缺少千位分隔符的问题
  • 可视化:修正了试图通过报告扩展生成报告时可能出现的流程错误,该报告在其配置中包含未知的绘图类型。

发展

  • 添加com.rapidminer.example.set.TableSplitter它提供了一个通用框架来拆分Belt(新数据核的代号)表
  • 添加com.rapidminer.connection.ConnectionInformationFileUtils # addNativeLibraries (ConnectionInformation)它将包含在CI中的本机库(.dll, .so, .dylib文件)添加到Java本机库查找路径,因此以后由第三方库调用System.loadLibrary(String)将工作
  • 可视化:ChartEventCallbackHandler现在获得完整的系列名称,而不是可能的缩写版本
  • 弃用来自数据库的寄存器可视化因为它已经很多年没有工作了