您正在查看9.9 -版本的RapidMiner Radoop文档点击这里查看最新版本

在RapidMiner Studio上安装RapidMiner Radoop

RapidMiner Radoop是一个客户端软件，具有易于使用的图形界面，用于处理和分析大数据 Hadoop Hadoop集群。它可以安装在RapidMiner Studio和/或RapidMiner Server上，并提供了一个在Hadoop环境中编辑和运行ETL、数据分析和机器学习过程的平台。RapidMiner Radoop可以在任何支持Java的平台上运行。

将RapidMiner Radoop集成到RapidMiner高级分析套件中就像下载扩展并进行一些配置更改一样简单。下面的说明描述了安装RapidMiner Radoop扩展的过程。

先决条件

安装说明假设您已经完成了以下任务。如果这些先决条件中的任何一个尚未满足，请确保在继续安装之前完成它们。

组件	笔记
RapidMiner	您需要安装RapidMiner Studio，并可选地安装RapidMiner Server。如有必要，请参阅说明RapidMiner Studio安装或RapidMiner服务器安装。
RapidMiner Radoop许可证	一旦登录，就会自动下载Radoop免费许可证。(注意,Radoop基本并不足以使用Radoop)。如果您对启用高级功能和支持感兴趣，联系我们购买RapidMiner Radoop许可证。
Hadoop集群	RapidMiner Radoop需要连接到一个正确配置的Hadoop集群。看到Hadoop集群要求和支持的Hadoop发行版。
分布式数据仓库系统	RapidMiner Radoop支持Apache Hive或Impala。系统必须安装在Hadoop集群上。看到支持的数据仓库系统。
网络设置	确保RapidMiner Radoop可以连接到Hadoop集群。安装RapidMiner Radoop并创建连接后，请参考网络设置了解更多信息。

验证RapidMiner Radoop的端口可用性

RapidMiner Radoop需要访问集群上的各种端口。请记下端口分配，以便以后在配置集群连接和安全设置时使用。的网络设置部分中的表列出各种组件的默认端口分配。

Hadoop集群要求

RapidMiner Radoop需要连接到一个正确配置的Hadoop集群，它将执行所有主要的数据处理操作，并存储与这些过程相关的数据。集群包括以下组件:

一个支持的Hadoop发行版，由HDFS和YARN组成
一个分布式数据仓库系统(蜂巢或黑斑羚)
集群节点上的Java 8(在hadoop中应用大多数RapidMiner模型和使用Process Pushdown操作符是必需的)
可选地,Apache火花。您可以在下面找到关于集群上Spark需求的详细描述。

引发的需求

RapidMiner Radoop支持大多数Spark 1.6.0及以上版本。有关Radoop Spark操作符使用特定Spark版本的信息，请参见下表。

火花的特性	Spark版本1.6.x	Spark版本2.0.x/2.1.x/2.2.x/2.3.x/2.4.x
线性回归
逻辑回归
决策树(MLlib二项)
支持向量机
决策树
随机森林
单流程下推
SparkRM
火花脚本
k - means
与世隔绝的森林

使用所有Spark操作符

如果您想使用每个Spark操作符，而您的Hadoop集群没有1.6或更高版本，则需要手动安装到集群上。您可以从Apache Spark下载页面。请注意，包类型应符合您的集群设置。

安装Hadoop 2.6及以上版本的Spark 1.6.0(旧版本或新版本需要更改下载链接和路径):

hadoop fs -mkdir -p /tmp/spark wget -O /tmp/spark-1.6.0-bin-hadoop2.6。TGZ http://d3kbcqa49mib13.cloudfront.net/spark-1.6.0-bin-hadoop2.6.tgz tar XZVF /tmp/spark-1.6.0-bin-hadoop2.6。-put /tmp/spark-1.6.0-bin-hadoop2.6/lib/spark-assembly-1.6.0-hadoop2.6.0.jar /tmp/spark/

使用火花脚本接线员，你需要Python 2.6+或Python 3.4+(对于PySpark脚本)和R 3.1 +(适用于SparkR脚本)安装在集群节点上。要能够在Python中使用MLlib函数，还请安装numpy包中。因为拼花- 136Hive版本1.2.0建议更晚。

考虑使用Hive和Impala作为RapidMiner Radoop的查询引擎的以下差异。

黑斑羚的局限性

下面的列表包含Impala 1.2.3版本不支持的特性。

排序操作符: Impala在没有指定LIMIT的情况下不支持ORDER BY子句(或者，从Impala版本1.4.0开始，只支持某些Radoop不遵守的限制)。您也可以使用Hive Script操作符通过使用显式LIMIT子句来执行排序。
添加噪声操作符: Impala不支持添加噪音。
标称到数值操作符：独特的整数在黑斑羚上不支持标称到数值的方法。
数据透视表操作符: Impala不支持透视表。
应用模型操作符:不支持Impala的模型应用程序。
更新模型和朴素贝叶斯运营商在Impala上，RapidMiner Radoop不支持朴素贝叶斯学习或由操作员更新模型。
相关矩阵，协方差矩阵,主成分分析运营商: Impala不支持CORR()函数。
性能运营商:性能(回归)Impala不支持operator。为性能(分类)操作时，Impala只支持以下条件:Accuracy、Classification Error和Kappa。
聚合函数: Impala不支持部分聚合功能。这可能会影响生成属性，正常化,总操作符。对于这些限制，RapidMiner Radoop提供了设计时错误，尽管Impala允许您运行它们。
没有高级Hive设置: Impala连接不支持设置Hive高级参数。

Hadoop集群注意事项

虽然RapidMiner Radoop很容易连接到所有支持的平台，但如果您在尝试与列出的发行版之一一起使用它时遇到问题，则可能需要特殊设置。详情可在特定发行说明部分。本节列出了在选择HDFS或数据仓库平台时应该注意的一些事项:

黑斑羚的考虑

Cloudera Impala是一个基于Apache Hadoop的开源查询引擎。它为存储在HDFS中的数据提供了一个低延迟的接口，用于SQL查询，使RapidMiner Radoop的使用更接近于在单主机环境中使用它的体验。而Cloudera黑斑羚虽然可以提供比Hive快得多的响应时间，但它并不支持HiveQL的所有特性。

评估黑斑羚限制以确定它是否是您的组织可接受的替代方案。例如，如果您需要高级功能(如模型评分)，则必须使用Hive。如果您同时使用Hive和Impala，请参考黑斑羚文档有关在两个框架之间共享元数据的信息。如果两者都使用，Impala中使用的元数据必须重新加载，以反映Hive中元数据的任何更改(例如创建新表)。这可以通过启用重新加载黑斑羚元数据的参数。Radoop巢。)