RapidMiner Studio 9.8.0有什么新功能?
发布:2020年10月14日
以下部分描述了RapidMiner Studio 9.8.0中的新功能:
新功能
- 利用AI Hub 9.8支持项目中的大文件。超过10MB并存储了ExampleSets的文件会自动处理,按预期进行版本控制,但存储效率更高。这是由Git LFS支持的,这意味着Python或R程序员可以继续轻松地使用这些项目,只要他们有Git LFS扩展安装。
- 时间序列窗口更新:
- 为所有窗口操作符添加了基于时间的(以时间单位指定窗口参数)和自定义窗口(窗口的开始和停止值由附加示例集提供)(窗口,窗口过程,预测验证,滑动窗口验证)
- 增加了更多的参数:专家设置(如果没有选择,将一些专家参数耦合到不显示),定义的窗口(指定从哪个点定义窗口),空窗口处理
- 更改了预测验证和滑动窗口验证操作符的最终模型的计算,以在与训练窗口大小相同的最终窗口上计算模型,该窗口以输入序列的最后一个示例结束
- 时间序列:添加了新的聚合方法(中位数、最大值、最小值、标准差、方差)移动平均滤波器
- 云连接
- 添加到Azure数据湖存储Gen2的连接:
- 阅读Azure数据湖存储Gen2
- 循环Azure数据湖存储Gen2
- 写入Azure数据湖存储Gen2
- 添加到Azure数据湖存储Gen2的连接:
增强
- 水
- 新的操作符:k - means(水),它使用捆绑的H2O库实现K-Means聚类。主要特点包括:
- 当无法从用户处获得良好的初始猜测时,估计k的最优值
- 内置标准化和标称编码
- 快速和内存高效的执行
- 请注意:估计k强烈优先于低k值。一定要仔细检查结果,看看是否符合预期。
- 新的操作符:k - means(水),它使用捆绑的H2O库实现K-Means聚类。主要特点包括:
- 新创建的存储库和项目现在默认存储在当前用户的“Documents”文件夹中。在创建存储库/项目时,位置仍然是可定制的
- 当打开一个进程或RapidMiner文件使用“打开…”在RapidMiner Studio中,进程将从注册路径的存储库中加载。未存储在存储库中的过程文件将被导入,就像菜单项“Import Process”一样
- 对象集合现在以一种新的基于zip的文件格式存储,以.collection结尾
- 合并了一个新的库,以便在首选项中选择“system”时更好地利用系统代理设置,特别是w.r.t. Windows和WPAD/PAC文件。这将极大地改善在复杂的公司网络设置中的体验
- HTML5安全模式现在更加高效
- 将Chromium二进制文件升级到79版
- 当身份验证不匹配(用户/密码vs SSO)时,改进了远程存储库创建(中央AI Hub存储库和项目)的错误消息
- 增加设置选项,以优化内部文件浏览器映射的网络驱动器
- 时间序列:移动移动平均滤波器到转换操作员组和删除的过时过滤器运营商集团
- 的输出端口重新排序多标签性能和Multi - Horizon Performance运营商
修正
- 修复了在新存储库中重命名后的错误元数据,然后使用以前的名称创建新条目
- 修复了在某些机器上查看可视化时可能导致问题的罕见问题
- 固定混合欧氏距离用于标称值和名义上的距离
- Windows PATH上的JNA库不再导致错误
- 修复了可能导致部署视图中图表不显示的问题。
- 修复了导致遗留smtp密码设置的问题首选项当对话框在更改值后多次保存时,对话框将被破坏。注意,不再推荐此设置,请使用新的发送邮件连接。
- 修复了遗留连接UI多次加密密码和令牌的类似问题
- 在AI Hub上计算的自动模型结果现在可以在带有所有结果的文件夹被移动/复制后通过结果视图打开
- 将捆绑的JRE升级到8u265
- 在重新命名了Server存储库之后,部署现在可以继续工作
- 修复了无符号扩展无法在操作符中使用新连接对象的问题
- 固定的潜力IllegalArgumentException在服务器上运行时,在谷歌存储操作符
- 具有巨大标称值的示例集可以再次从存储库中检索
- 时间序列:修复了一个错误均衡时间戳在某些情况下,当日历时间设置为“域”并且输入数据由已经部分等距的时间戳组成时,会导致无限循环
发展
模块化
RapidMiner Studio已经模块化!好吧,公平地说,这有点夸大其词,但是我们通过将一些无处不在的基础知识移动到模块中,为模块中开发未来的功能奠定了基础。关于模块值得注意的事情是,它们可以作为库而不需要整个Studio Core来引用,并且它们不依赖于Studio Core本身。这显然导致了项目结构的变化rapidminer-studio-core现在你有了开源文件夹,每个模块都有子文件夹。我们没有为此更改包结构,所以您的扩展应该像以前一样工作,不需要更改。警告:我们改变了一些深层的内部api,所以如果你非常调皮,使用内部api,你的项目实际上有可能与RapidMiner Studio 9.8相违背,但99%的项目应该是完美的。
如前所述,9.8中创建的大多数模块并不是那么令人兴奋,它们只是为我们将来开发更多模块化铺平了道路(这些模块对此非常有帮助)。然而,有两个模块可能会引起你的兴趣:
- rapidminer-studio-encryption:基于的加密库谷歌叮叮铃使用最新且琐碎的对称和流加密,具有通过AES256-GCM进行关联数据的身份验证加密等算法。首先看看com.rapidminer.tools.encryption.EncryptionProvider
- rapidminer-studio-globalsearch:基于的索引和查询库Apache Lucene它可以用来使项目中的任何内容都可搜索。它在Studio中用于为全球搜索在右上角。首先看看com.rapidminer.search.GlobalSearchRegistry以及com.rapidminer.search.GlobalSearchIndexer
- rapidminer-studio-settings:一个非常简单的组件,提供全局或给定上下文的设置。它们很简单字符串或字符串可以随时更改的键值对。它包括具有在没有特殊权限的情况下无法更改的受保护设置的能力。它还提供侦听器,因此您可以在运行时对这些设置的更改做出反应。虽然这个模块本身不是很令人兴奋,但所有其他模块都可以使用这个模块来进行每个模块提供的可定制设置。控件可以更改设置com.rapidminer.settings.Settings类。
新数据核心
我们的新数据核心基于带项目终于来了!忘记ExampleSet类,开始使用Table类,这是RapidMiner对示例集的新表示。点击在这里学习你需要知道的关于新框架的一切,并开始使用Belt编写操作符。新框架将在短时间内停留在测试阶段,但我们鼓励您尽快开始使用它,因为旧的API将在不久的将来被弃用。
元数据
- 泛型元数据已弃用的字符串/对象值。请使用注解或创建子类。
- 已弃用属性和属性元数据的注解