可伸缩的架构
要为您的数据科学团队构建RapidMiner Server环境,必须安装两个组件:乐鱼平台进入
- RapidMiner服务器-中心组件
- 工作代理人—本地或远程,以提供可伸缩性
加上以下帮助应用程序:
- RapidMiner工作室-设计您将在RapidMiner服务器环境中运行的进程
- 数据库—用于存储配置文件、cron作业详细信息、用户报告请求和其他支持数据
可以安装以下可选组件,独立运行:
- 实时评分代理-提供低延迟web服务的可伸缩性
一个简单的示意图如下所示。

设计
RapidMiner服务器环境的设计反映了一个典型的数据科学工作流,其中有两种活动:乐鱼平台进入
模型构建,涉及可以放在队列上并异步运行的长时间运行的流程
RapidMiner服务器为长期运行的作业提供队列系统,这些作业在外部通过工作代理人.您可以通过添加作业代理来提高处理能力。
预测或模型的任何其他应用,其中对实时响应的需求是至关重要的
有两个生成预测的引擎:
只有后者是可扩展的。您可以通过添加实时评分代理来提高处理能力。
RapidMiner服务器
RapidMiner Server是该体系结构的核心组件。您可以通过web界面或RapidMiner Studio与它进行交互。其主要职责是:
- 用户,队列、权限管理
- 调度用户作业(进程)的
- 通过web服务/ web应用程序调用的流程执行
- 执行在本地作业代理上运行的进程(如果存在)
- 库管理(模型、过程等的存储以及它们的权限)
- 连接管理(DB、Hadoop/Radoop等)
阅读更多:安装RapidMiner Server
在下面的图表中,每个蓝色框代表一个单独的机器。RapidMiner服务器安装在左边的蓝色大框中,而右边的蓝色框中主机远程作业代理。

工作代理人
作业代理在专用机器上远程运行的设计旨在实现可伸缩性。但是,一个或多个作业代理可以是安装在本地与RapidMiner Server安装在同一台机器上。
每个作业代理都配置为指向RapidMiner Server上的一个队列。它的唯一职责是从队列中获取作业并运行它们。在启动时,作业代理将生成数量可配置的作业容器作为单独的系统进程。然后,作业被重定向到这些作业容器,RapidMiner进程在生成的作业容器中执行。关闭作业代理程序时,此作业代理程序的所有作业容器也将关闭。对于每个作业代理,可以生成的作业容器数量和可用内存都是可配置的。
多个作业代理可以指向同一个队列。你可以管理队列,从而通过分配权限来分配资源。乐鱼体育安装
工作容器
作业代理生成的作业容器运行一个能够执行RapidMiner进程的RapidMiner Studio实例。它被绑定到一个系统端口,以便通过REST API接受来自作业代理的作业。
默认情况下,作业容器不会在每个进程结束后终止,因此提供了几乎即时的进程执行。
在自己的沙盒中运行每个作业可能是可取的,这样系统更健壮,作业不会对以前运行的作业产生任何影响。此行为也可以配置,例如在进程完成后重新启动作业容器。详情请参阅作业代理的配置页面欲知详情。
这种安全性的代价是延迟——重新启动作业容器的延迟是以秒为单位计算的。然后,每个作业都将有这个额外的延迟。
如果实时响应非常重要,我们建议使用web服务或实时评分代理。例如,您可以在作业容器中构建一个模型,并通过实时评分代理为该模型生成预测。
实时评分代理
如前所述,有两个生成预测的引擎:
当通过实时评分代理生成预测时,您需要RapidMiner服务器创建部署,但一旦安装,它独立于RapidMiner Server运行。
如下表所示,实时评分代理是作业代理/作业容器的可伸缩、低延迟的对应物。简而言之,这正是实时预测所需要的。
组件 | 可伸缩性 | 低延迟响应 | 即时执行 |
---|---|---|---|
作业代理/作业容器 | ![]() |
![]() |
![]() |
实时评分代理 | ![]() |
![]() |
![]() |
Web服务 | ![]() |
![]() |
![]() |
阅读更多:Web服务
阅读更多:实时得分