类别

版本

您正在查看9.4 -版本的RapidMiner Radoop文档点击这里查看最新版本

在RapidMiner Studio上安装RapidMiner Radoop

RapidMiner Radoop是一个客户端软件,具有易于使用的图形界面,用于处理和分析大数据HadoopHadoop集群。它可以安装在RapidMiner Studio和/或RapidMiner Server上,并提供了一个在Hadoop环境中编辑和运行ETL、数据分析和机器学习过程的平台。RapidMiner Radoop可以在任何支持Java的平台上运行。

将RapidMiner Radoop集成到RapidMiner高级分析套件中就像下载扩展并进行一些配置更改一样简单。下面的说明描述了安装RapidMiner Radoop扩展的过程。

先决条件

安装说明假设您已经完成了以下任务。如果这些先决条件中的任何一个尚未满足,请确保在继续安装之前完成它们。

组件 笔记
RapidMiner 您需要安装RapidMiner Studio,并可选地安装RapidMiner Server。如有必要,请参阅说明RapidMiner Studio安装RapidMiner服务器安装
RapidMiner Radoop许可证 一旦登录,就会自动下载Radoop免费许可证。(注意,Radoop基本并不足以使用Radoop)。如果您对启用高级功能和支持感兴趣,联系我们购买RapidMiner Radoop许可证。
Hadoop集群 RapidMiner Radoop需要连接到一个正确配置的Hadoop集群。看到Hadoop集群要求支持的Hadoop发行版
分布式数据仓库系统 RapidMiner Radoop支持Apache Hive或Impala。系统必须安装在Hadoop集群上。看到支持的数据仓库系统
网络设置 确保RapidMiner Radoop可以连接到Hadoop集群。安装RapidMiner Radoop并创建连接后,请参考网络设置了解更多信息。

验证RapidMiner Radoop的端口可用性

RapidMiner Radoop需要访问集群上的各种端口。请记下端口分配,以便以后在配置集群连接和安全设置时使用。的网络设置部分中的表列出各种组件的默认端口分配。

Hadoop集群要求

RapidMiner Radoop需要连接到一个正确配置的Hadoop集群,它将执行所有主要的数据处理操作,并存储与这些过程相关的数据。集群包括以下组件:

  • 一个支持的Hadoop发行版,由HDFS和YARN组成
  • 一个分布式数据仓库系统(蜂巢或黑斑羚)
  • 集群节点上的Java 8(在hadoop中应用大多数RapidMiner模型和使用Process Pushdown操作符是必需的)
  • 可选地,Apache火花。您可以在下面找到关于集群上Spark需求的详细描述。

RapidMiner Radoop支持大多数Spark 1.6.0及以上版本。有关Radoop Spark操作符使用特定Spark版本的信息,请参见下表。

火花的特性 Spark版本1.6.x Spark版本2.0.x/2.1.x/2.2.x/2.3.x
线性回归
逻辑回归
决策树(MLlib二项)
支持向量机
决策树
随机森林
单流程下推
SparkRM
火花脚本
k - means
与世隔绝的森林

RapidMiner Radoop不支持Spark 1.5版本。请使用最新版本的Spark。

使用所有Spark操作符

如果你想使用每个Spark操作符,而你的Hadoop集群没有1.5或更高版本,那么它需要手动安装到集群上。您可以从Apache Spark下载页面。请注意,包类型应符合您的集群设置。

  • 安装Hadoop 2.6及以上版本的Spark 1.5.2(旧版本或新版本需要更改下载链接和路径):

    hadoop fs -mkdir -p /tmp/spark wget -O /tmp/spark-1.5.2-bin-hadoop2.6。TGZ http://d3kbcqa49mib13.cloudfront.net/spark-1.5.2-bin-hadoop2.6.tgz tar XZVF /tmp/spark-1.5.2-bin-hadoop2.6。-put /tmp/spark-1.5.2-bin-hadoop2.6/lib/spark-assembly-1.5.2-hadoop2.6.0.jar /tmp/spark/

使用火花脚本接线员,你需要Python 2.6+或Python 3.4+(对于PySpark脚本)和R 3.1 +(适用于SparkR脚本)安装在集群节点上。要能够在Python中使用MLlib函数,还请安装numpy包中。因为拼花- 136Hive版本1.2.0建议更晚。

考虑使用Hive和Impala作为RapidMiner Radoop的查询引擎的以下差异。

下面的列表包含Impala 1.2.3版本不支持的特性。

  • 排序操作符: Impala在没有指定LIMIT的情况下不支持ORDER BY子句(或者,从Impala版本1.4.0开始,只支持某些Radoop不遵守的限制)。您也可以使用Hive Script操作符通过使用显式LIMIT子句来执行排序。

  • 添加噪声操作符: Impala不支持添加噪音。

  • 标称到数值操作符:独特的整数在黑斑羚上不支持标称到数值的方法。

  • 数据透视表操作符: Impala不支持透视表。

  • 应用模型操作符:不支持Impala的模型应用程序。

  • 更新模型朴素贝叶斯运营商在Impala上,RapidMiner Radoop不支持朴素贝叶斯学习或由操作员更新模型。

  • 相关矩阵协方差矩阵,主成分分析运营商: Impala不支持CORR()函数。

  • 性能运营商:性能(回归)Impala不支持operator。为性能(分类)操作时,Impala只支持以下条件:Accuracy、Classification Error和Kappa。

  • 聚合函数: Impala不支持部分聚合功能。这可能会影响生成属性正常化,操作符。对于这些限制,RapidMiner Radoop提供了设计时错误,尽管Impala允许您运行它们。

  • 没有高级Hive设置: Impala连接不支持设置Hive高级参数。

Hadoop集群注意事项

虽然RapidMiner Radoop很容易连接到所有支持的平台,但如果您在尝试与列出的发行版之一一起使用它时遇到问题,则可能需要特殊设置。详情可在特定发行说明部分。本节列出了在选择HDFS或数据仓库平台时应该注意的一些事项:

Cloudera Impala是一个基于Apache Hadoop的开源查询引擎。它为存储在HDFS中的数据提供了一个低延迟的接口,用于SQL查询,使RapidMiner Radoop的使用更接近于在单主机环境中使用它的体验。而Cloudera黑斑羚虽然可以提供比Hive快得多的响应时间,但它并不支持HiveQL的所有特性。

评估黑斑羚限制以确定它是否是您的组织可接受的替代方案。例如,如果您需要高级功能(如模型评分),则必须使用Hive。如果您同时使用Hive和Impala,请参考黑斑羚文档有关在两个框架之间共享元数据的信息。如果两者都使用,Impala中使用的元数据必须重新加载,以反映Hive中元数据的任何更改(例如创建新表)。这可以通过启用重新加载黑斑羚元数据的参数。Radoop巢。)

在RapidMiner Studio上安装RapidMiner Radoop

RapidMiner Radoop客户端安装非常简单,假设先决条件是否满足和合适端口可用。扩展可以很容易RapidMiner从市场安装

如果您想手动安装扩展,请按照以下步骤操作。

在步骤3中,您将把文件移动到:

安装有两个选项,请选择一个。

要为一台机器上的所有用户启用插件(全局安装),请将文件移动到安装文件夹atlib /插件

在RapidMiner Studio 6.4及更高版本的情况下,为了仅为单个用户启用插件,请将文件移动到.RapidMiner / extensions /在用户主文件夹中。如果扩展文件夹不存在,创建它。

对于运行RapidMiner Studio 6.4及更高版本的Mac用户,将文件移动到.RapidMiner / extensions /。如果扩展文件夹不存在,创建它。注意,RapidMiner Studio创建.RapidMiner作为一个隐藏文件夹,所以你必须设置你的Mac显示隐藏的文件和文件夹,如果你看不到它。

对于运行RapidMiner Studio 6.4之前版本的Mac用户,将文件移动到安装文件夹lib /插件。)

流程如下:

  1. 如果有必要,退出RapidMiner Studio。

  2. 从确认邮件中指定的位置下载RapidMiner Radoop插件,这是一个JAR文件。

  3. 移动下载的RapidMiner Radoop JAR文件(rapidminer-Radoop-onsite——<版本> . jar)档案至RapidMiner Studio目录在主机系统上。

  4. 移动JAR文件后,启动RapidMiner。

如果扩展已成功安装,Hadoop数据出现在RapidMiner Studio启动窗口的中间,作为一个新视图:

就是这样。现在已经安装了RapidMiner Radoop,请参见配置连接完成安装。

考虑到安全

考虑以下安全措施来保护您的HDFS和数据仓库基础设施:

  • 为数据仓库系统应用防火墙设置(可选,但建议使用)。
  • 使用Kerberos或Apache Sentry保护您的集群。看到Hadoop安全部分安全配置建议。