您正在查看9.4 -版本的RapidMiner Radoop文档点击这里查看最新版本
在RapidMiner Studio上安装RapidMiner Radoop
RapidMiner Radoop是一个客户端软件,具有易于使用的图形界面,用于处理和分析大数据Hadoop集群。它可以安装在RapidMiner Studio和/或RapidMiner Server上,并提供了一个在Hadoop环境中编辑和运行ETL、数据分析和机器学习过程的平台。RapidMiner Radoop可以在任何支持Java的平台上运行。
将RapidMiner Radoop集成到RapidMiner高级分析套件中就像下载扩展并进行一些配置更改一样简单。下面的说明描述了安装RapidMiner Radoop扩展的过程。
先决条件
安装说明假设您已经完成了以下任务。如果这些先决条件中的任何一个尚未满足,请确保在继续安装之前完成它们。
组件 | 笔记 |
---|---|
RapidMiner | 您需要安装RapidMiner Studio,并可选地安装RapidMiner Server。如有必要,请参阅说明RapidMiner Studio安装或RapidMiner服务器安装。 |
RapidMiner Radoop许可证 | 一旦登录,就会自动下载Radoop免费许可证。(注意,Radoop基本并不足以使用Radoop)。如果您对启用高级功能和支持感兴趣,联系我们购买RapidMiner Radoop许可证。 |
Hadoop集群 | RapidMiner Radoop需要连接到一个正确配置的Hadoop集群。看到Hadoop集群要求和支持的Hadoop发行版。 |
分布式数据仓库系统 | RapidMiner Radoop支持Apache Hive或Impala。系统必须安装在Hadoop集群上。看到支持的数据仓库系统。 |
网络设置 | 确保RapidMiner Radoop可以连接到Hadoop集群。安装RapidMiner Radoop并创建连接后,请参考网络设置了解更多信息。 |
验证RapidMiner Radoop的端口可用性
RapidMiner Radoop需要访问集群上的各种端口。请记下端口分配,以便以后在配置集群连接和安全设置时使用。的网络设置部分中的表列出各种组件的默认端口分配。
Hadoop集群要求
RapidMiner Radoop需要连接到一个正确配置的Hadoop集群,它将执行所有主要的数据处理操作,并存储与这些过程相关的数据。集群包括以下组件:
- 一个支持的Hadoop发行版,由HDFS和YARN组成
- 一个分布式数据仓库系统(蜂巢或黑斑羚)
- 集群节点上的Java 8(在hadoop中应用大多数RapidMiner模型和使用Process Pushdown操作符是必需的)
- 可选地,Apache火花。您可以在下面找到关于集群上Spark需求的详细描述。
RapidMiner Radoop支持大多数Spark 1.6.0及以上版本。有关Radoop Spark操作符使用特定Spark版本的信息,请参见下表。
火花的特性 | Spark版本1.6.x | Spark版本2.0.x/2.1.x/2.2.x/2.3.x |
---|---|---|
线性回归 | ||
逻辑回归 | ||
决策树(MLlib二项) | ||
支持向量机 | ||
决策树 | ||
随机森林 | ||
单流程下推 | ||
SparkRM | ||
火花脚本 | ||
k - means | ||
与世隔绝的森林 |
RapidMiner Radoop不支持Spark 1.5版本。请使用最新版本的Spark。
使用所有Spark操作符
如果你想使用每个Spark操作符,而你的Hadoop集群没有1.5或更高版本,那么它需要手动安装到集群上。您可以从Apache Spark下载页面。请注意,包类型应符合您的集群设置。
安装Hadoop 2.6及以上版本的Spark 1.5.2(旧版本或新版本需要更改下载链接和路径):
hadoop fs -mkdir -p /tmp/spark wget -O /tmp/spark-1.5.2-bin-hadoop2.6。TGZ http://d3kbcqa49mib13.cloudfront.net/spark-1.5.2-bin-hadoop2.6.tgz tar XZVF /tmp/spark-1.5.2-bin-hadoop2.6。-put /tmp/spark-1.5.2-bin-hadoop2.6/lib/spark-assembly-1.5.2-hadoop2.6.0.jar /tmp/spark/
使用火花脚本接线员,你需要Python 2.6+或Python 3.4+(对于PySpark脚本)和R 3.1 +(适用于SparkR脚本)安装在集群节点上。要能够在Python中使用MLlib函数,还请安装numpy包中。因为拼花- 136Hive版本1.2.0建议更晚。
考虑使用Hive和Impala作为RapidMiner Radoop的查询引擎的以下差异。
排序操作符: Impala在没有指定LIMIT的情况下不支持ORDER BY子句(或者,从Impala版本1.4.0开始,只支持某些Radoop不遵守的限制)。您也可以使用Hive Script操作符通过使用显式LIMIT子句来执行排序。
添加噪声操作符: Impala不支持添加噪音。
标称到数值操作符:独特的整数在黑斑羚上不支持标称到数值的方法。
数据透视表操作符: Impala不支持透视表。
应用模型操作符:不支持Impala的模型应用程序。
更新模型和朴素贝叶斯运营商在Impala上,RapidMiner Radoop不支持朴素贝叶斯学习或由操作员更新模型。
相关矩阵,协方差矩阵,主成分分析运营商: Impala不支持CORR()函数。
性能运营商:性能(回归)Impala不支持operator。为性能(分类)操作时,Impala只支持以下条件:Accuracy、Classification Error和Kappa。
聚合函数: Impala不支持部分聚合功能。这可能会影响生成属性,正常化,总操作符。对于这些限制,RapidMiner Radoop提供了设计时错误,尽管Impala允许您运行它们。
没有高级Hive设置: Impala连接不支持设置Hive高级参数。
Hadoop集群注意事项
虽然RapidMiner Radoop很容易连接到所有支持的平台,但如果您在尝试与列出的发行版之一一起使用它时遇到问题,则可能需要特殊设置。详情可在特定发行说明部分。本节列出了在选择HDFS或数据仓库平台时应该注意的一些事项:
Cloudera Impala是一个基于Apache Hadoop的开源查询引擎。它为存储在HDFS中的数据提供了一个低延迟的接口,用于SQL查询,使RapidMiner Radoop的使用更接近于在单主机环境中使用它的体验。而Cloudera黑斑羚虽然可以提供比Hive快得多的响应时间,但它并不支持HiveQL的所有特性。
评估黑斑羚限制以确定它是否是您的组织可接受的替代方案。例如,如果您需要高级功能(如模型评分),则必须使用Hive。如果您同时使用Hive和Impala,请参考黑斑羚文档有关在两个框架之间共享元数据的信息。如果两者都使用,Impala中使用的元数据必须重新加载,以反映Hive中元数据的任何更改(例如创建新表)。这可以通过启用重新加载黑斑羚元数据的参数。Radoop巢。)
在RapidMiner Studio上安装RapidMiner Radoop
RapidMiner Radoop客户端安装非常简单,假设先决条件是否满足和合适端口可用。扩展可以很容易从市场安装。
如果您想手动安装扩展,请按照以下步骤操作。
安装有两个选项,请选择一个。
要为一台机器上的所有用户启用插件(全局安装),请将文件移动到安装文件夹atlib /插件
。
在RapidMiner Studio 6.4及更高版本的情况下,为了仅为单个用户启用插件,请将文件移动到.RapidMiner / extensions /
在用户主文件夹中。如果扩展文件夹不存在,创建它。
对于运行RapidMiner Studio 6.4及更高版本的Mac用户,将文件移动到.RapidMiner / extensions /
。如果扩展文件夹不存在,创建它。注意,RapidMiner Studio创建.RapidMiner
作为一个隐藏文件夹,所以你必须设置你的Mac显示隐藏的文件和文件夹,如果你看不到它。
对于运行RapidMiner Studio 6.4之前版本的Mac用户,将文件移动到安装文件夹lib /插件
。)
流程如下:
如果有必要,退出RapidMiner Studio。
从确认邮件中指定的位置下载RapidMiner Radoop插件,这是一个JAR文件。
移动下载的RapidMiner Radoop JAR文件(
rapidminer-Radoop-onsite——<版本> . jar
)档案至RapidMiner Studio目录在主机系统上。移动JAR文件后,启动RapidMiner。
如果扩展已成功安装,Hadoop数据出现在RapidMiner Studio启动窗口的中间,作为一个新视图:
就是这样。现在已经安装了RapidMiner Radoop,请参见配置连接完成安装。
考虑到安全
考虑以下安全措施来保护您的HDFS和数据仓库基础设施:
- 为数据仓库系统应用防火墙设置(可选,但建议使用)。
- 使用Kerberos或Apache Sentry保护您的集群。看到Hadoop安全部分安全配置建议。