2016年11月15日

博客

RapidMiner的新并行交叉验证

自本文最初发布以来,RapidMiner平台已经取得了一些重大进展。我们的使命是让任何人都能更容易地使用机器学习。欲了解更多细节,请查看我们的最新版本

RapidMiner的新并行交叉验证

时间就是金钱

人们常说,时间就是金钱。虽然简化了很多,但在总结数据科学家面临的挑战时,这个朗朗上口的短语当然是有效的。在当今快节奏的商业中,行动最快的公司在市场上具有竞争优势。乐鱼平台进入数据科学正在成为展示公司的关键指南在哪里移动和如何这直接转化为数据科学家的核心挑战:在尽可能短的时间内产生尽可能多的有价值的见解和知识。速度是最重要的,而不仅仅是结果.时间就是金钱。

加速分析:构建并运行它

在RapidMiner,加速分析并帮助数据科学家更快地提供准确和有价值的结果是我们的主要目标之一。很长一段时间以来,我们一直致力于支持数据科学家构建分析更快,例如通过建议下一步当构建过程或允许时重复使用以前完成的工作.虽然这为加速分析提供了一个不错的杠杆,但这只是游戏的一半。另一半是执行。因此,我们现在已经扩大了我们的重点,以加快速度运行还有分析:

一个新的并行执行框架

在RapidMiner 7.3中,我们在RapidMiner Studio和框架下引入了一个新的并行执行框架RapidMiner AI Hub(以前的RapidMiner服务器)。这允许您在多个CPU核心上并行运行计算,充分利用可用的计算资源。乐鱼体育安装在接下来的几个版本中,我们计划迁移许多运算符来利用这个框架,从而通过并行化计算大大提高速度。作为演示该值的第一步,我们并行化了RapidMiner中最重要的操作符之一:交叉验证(Cross-Validation)。

rm7-3_parallel

交叉验证?一个附记*

对于那些还不知道(还不知道)的人来说,交叉验证是评估预测模型预测效果的事实上的标准方法——通过反复将有限数据集分割为不重叠的训练集和测试集,在训练集上构建模型,将其应用于相应的测试集,最后计算它对已知内容的预测效果。训练一个模型、应用它并评估它的预测质量的每一次迭代都被称为一次折叠。交叉验证不仅是验证预测模型是否可用于特定用例的核心步骤,而且还是比较不同模型、识别和选择最佳模型或优化模型参数的核心步骤。简而言之:当涉及到建模和模型优化时,交叉验证被广泛使用。我构建了一些流程,其中交叉验证操作符被执行了数百次,以找出最佳模型。*附记吗?一个补说

并行交叉验证

现在我们已经移植了交叉验证操作符来使用并行执行,所有这样的建模过程都加快了速度。在最好的情况下,加速等于交叉验证的折叠数。但是,即使在假定为标准的情况下,在四核CPU上进行十倍交叉验证,我们也可以轻松地将进程运行时间减少50%。好处是显而易见的:运行模型流程所需的时间大大减少。实际上,你比以前更快地得到结果,可以在更短的时间内探索更多的模型、变量和参数,并最终更快地产生更好的结果。

接下来是什么?

虽然建模是数据科学家工作的很大一部分,但还有更多。还有很多工作要做,以加快这一进程的其他部分。通过新的并行执行框架,我们已经为交付更多的改进奠定了基础,从而大大加快了RapidMiner中核心计算密集型任务的执行速度。请继续关注下一个版本中的相关改进。同样,我们希望帮助您在构建和运行分析时更快。

还有什么?

最后要注意的是,我们不能只进行与性能相关的改进,而不继续考虑用户体验:为了简化使用,我们将与交叉验证相关的三个操作符合并为一个操作符。以前你可以选择X-Validation、Batch-X-Validation或X-Prediction操作符,现在它们的所有功能都由单个新的Cross-Validation操作符覆盖,这使得它更容易适应各种用例需求(见下图)。这只是又一个小小的改进,可以进一步加快分析速度。毕竟,时间就是金钱。

rm7-3_cross_validation

要了解最新版本的RapidMiner有什么新功能,请查看我们的最新版本

相关资源乐鱼体育安装