在RapidMiner Studio上安装RapidMiner Radoop
RapidMiner Radoop是一款具有易于使用的图形界面的客户端软件,用于处理和分析应用程序上的大数据Hadoop集群。它可以安装在RapidMiner Studio和/或RapidMiner Server上,并提供了一个在Hadoop环境中编辑和运行ETL、数据分析和机器学习过程的平台。RapidMiner Radoop可以在任何支持Java的平台上运行。
将RapidMiner Radoop集成到RapidMiner高级分析套件中就像下载扩展并进行一些配置更改一样简单。以下说明描述了安装RapidMiner Radoop扩展的过程。
先决条件
安装说明假设您已经完成了以下任务。如果还没有满足这些先决条件中的任何一个,请确保在继续安装之前完成它们。
组件 | 笔记 |
---|---|
RapidMiner | 您需要安装RapidMiner Studio,还需要安装RapidMiner Server。如有必要,请参见安装RapidMiner Studio或安装RapidMiner服务器. |
RapidMiner Radoop许可证 | 登录后自动下载Radoop免费license。(注意,Radoop基本仅仅使用Radoop是不够的。)如果您对启用高级功能和支持感兴趣,联系我们购买RapidMiner Radoop许可证。 |
Hadoop集群 | RapidMiner Radoop需要连接到正确配置的Hadoop集群。看到Hadoop集群需求而且受支持的Hadoop发行版. |
分布式数据仓库系统 | RapidMiner Radoop支持Apache Hive或Impala。系统必须安装在Hadoop集群上。看到支持的数据仓库系统. |
网络设置 | 确保RapidMiner Radoop可以连接到您的Hadoop集群。安装RapidMiner Radoop并创建连接后,请参考网络设置获取更多信息。 |
验证RapidMiner Radoop的端口可用性
RapidMiner Radoop需要访问集群上的各种端口。请记录您的端口分配,以便以后在配置集群连接和安全设置时使用。的表中的内容列出各个组件的默认端口分配。
Hadoop集群需求
RapidMiner Radoop需要连接到一个正确配置的Hadoop集群,在那里它将执行所有主要的数据处理操作,并存储与这些进程相关的数据。集群包含以下组件:
- 一个受支持的Hadoop发行版,由HDFS和YARN组成
- 一个分布式数据仓库系统(蜂房或黑斑羚)
- 集群节点上的Java 8(对于在hadoop中应用大多数RapidMiner模型和使用Process Pushdown操作符来说是必需的)
- 可选地,Apache火花.下面是Spark对集群需求的详细描述。
RapidMiner Radoop支持大多数Spark 1.6.0及以上版本。有关Radoop Spark操作符使用特定Spark版本的信息,请参见下表。
火花的特性 | Spark 1.6.x版本 | Spark 2.0.x/2.1.x/2.2.x/2.3.x/2.4.x版本 |
---|---|---|
线性回归 | ||
逻辑回归 | ||
决策树(MLlib二名) | ||
支持向量机 | ||
决策树 | ||
随机森林 | ||
单流程下推 | ||
SparkRM | ||
火花脚本 | ||
k - means | ||
与世隔绝的森林 |
使用所有Spark操作符
如果您想使用每个Spark操作符,而您的Hadoop集群没有1.6或以上版本,那么需要手动在集群上安装Spark操作符。可以通过从Apache Spark下载页面.请注意包类型应该满足您的集群设置。
为Hadoop 2.6或更高版本安装Spark 1.6.0(对于较旧的Hadoop或较新的Spark版本,您需要更改下载链接和路径):
hadoop fs -mkdir -p /tmp/spark wget -O /tmp/spark-1.6.0-bin-hadoop2.6. xmlTGZ http://d3kbcqa49mib13.cloudfront.net/spark-1.6.0-bin-hadoop2.6.tgz tar XZVF /tmp/spark-1.6.0-bin-hadoop2.6。tgz -C /tmp/ hadoop fs -put /tmp/spark-1.6.0-bin-hadoop2.6/lib/spark-assembly-1.6.0-hadoop2.6.0.jar /tmp/spark/
使用火花脚本接线员,你需要有Python 2.6+或Python 3.4+(用于PySpark脚本)和R 3.1 +(对于SparkR脚本)安装在集群节点上。若要在Python中使用MLlib函数,请同时安装numpy包中。因为拼花- 136Hive 1.2.0版本建议晚一点。
考虑使用Hive和Impala作为RapidMiner Radoop的查询引擎之间的以下差异。
排序操作符: Impala不支持没有指定LIMIT的ORDER BY子句(或者,从Impala版本1.4.0开始,只支持某些Radoop不遵守的限制)。您也可以使用Hive Script操作符通过显式的LIMIT子句来执行排序。
添加噪声操作符: Impala不支持添加噪声。
从标称到数值操作符:独特的整数公称到数值的方法是不支持的黑斑羚。
数据透视表操作符: Impala不支持数据透视表。
应用模型操作符:不支持Impala的模型应用程序。
更新模型而且朴素贝叶斯运营商:在Impala上,RapidMiner Radoop不支持朴素贝叶斯学习或由操作员更新模型。
相关矩阵,协方差矩阵,主成分分析运营商: Impala不支持CORR()函数。
性能运营商:性能(回归)操作符在Impala上不支持。为性能(分类)操作员,在黑斑羚上只支持以下标准:精度,分类错误和Kappa。
聚合函数: Impala不支持部分聚合功能。这可能会影响生成属性,正常化,总操作符。对于这些限制,RapidMiner Radoop提供了设计时错误,尽管Impala允许您运行它们。
无Hive高级设置: Impala连接不能设置Hive高级参数。
Hadoop集群注意事项
虽然RapidMiner Radoop可以轻松连接到所有受支持的平台,但如果在尝试将其与列出的发行版之一一起使用时遇到问题,则可能需要特殊设置。详情见分配须知部分。本节列出了在选择HDFS或数据仓库平台时应该注意的一些事项:
Cloudera Impala是一个基于Apache Hadoop的开源查询引擎。它为存储在HDFS中的数据提供了一个用于SQL查询的低延迟接口,使RapidMiner Radoop的使用更接近于在单个主机环境中使用它的体验。而Cloudera黑斑羚可以提供比Hive快得多的响应时间,但它不支持HiveQL的所有特性。
评估黑斑羚限制以确定它是否是您的组织可以接受的替代方案。例如,如果你需要高级功能(如模型评分),你必须使用Hive。如果同时使用Hive和Impala,请参考黑斑羚文档有关在两个框架之间共享元数据的信息。如果两者都使用,Impala中使用的元数据必须重新加载,以反映在Hive中所做的任何元数据更改(例如创建新表)。(这可以通过启用重新加载黑斑羚元数据参数。Radoop巢.)
在RapidMiner Studio上安装RapidMiner Radoop
RapidMiner Radoop客户端安装非常简单,假设先决条件是否满足和合适端口是否可用.扩展可以很容易从市场安装.
如果您想手动安装扩展,请遵循以下步骤。
安装有两个选项,请选择一个。
要为一台机器上的所有用户启用插件(全局安装),请将文件移动到的install文件夹中lib /插件
.
对于RapidMiner Studio版本6.4及以后的版本,为了仅为单个用户启用插件,请将文件移动到.RapidMiner / extensions /
在用户主文件夹。如果“extensions”文件夹不存在,请创建它。
对于运行RapidMiner Studio 6.4及更高版本的Mac用户,将文件移动到.RapidMiner / extensions /
.如果“extensions”文件夹不存在,请创建它。注意,RapidMiner Studio创建.RapidMiner
为隐藏文件夹,因此如果无法看到隐藏文件和文件夹,则必须将Mac设置为显示隐藏文件和文件夹。
对于运行RapidMiner Studio 6.4之前版本的Mac用户,将文件移动到的安装文件夹lib /插件
.)
具体流程如下:
如有必要,退出RapidMiner Studio。
从确认邮件中指定的位置下载RapidMiner Radoop插件(JAR文件)。
移动已下载的RapidMiner Radoop JAR文件(
rapidminer-Radoop-onsite——<版本> . jar
)文件传送至RapidMiner Studio目录在主机系统上。移动JAR文件后,启动RapidMiner。
如果扩展已经成功安装,Hadoop数据显示在中间,作为一个新视图,在RapidMiner Studio启动窗口:
就是这样。现在已经安装了RapidMiner Radoop,请参阅上的部分配置连接完成安装。
考虑到安全
考虑以下安全措施来保护您的HDFS和数据仓库基础设施:
- 为数据仓库系统应用防火墙设置(可选,但推荐)。
- 使用Kerberos或Apache哨兵来保护您的集群。看到Hadoop安全部分查看安全配置建议。