类别

版本

您正在查看9.7 -版本的RapidMiner Radoop文档点击这里查看最新版本

在RapidMiner Studio中配置RapidMiner Radoop连接

您可以在RapidMiner Studio中配置RapidMiner Radoop与一个或多个Hadoop集群之间的连接管理Radoop连接连接设置对话框。控件访问这些对话框连接菜单,Hadoop数据视图,或设计视图。配置并保存连接项后,您可以在部署前对它们进行测试。该测试验证到集群的连接,并验证连接设置是否符合上一节中描述的RapidMiner Radoop需求先决条件

有三种方法可以创建Radoop连接。我们强烈推荐第一种方法。

  1. 如果您可以访问集群管理器软件(Apache Ambari或Cloudera manager),我们强烈建议使用从管理器图标导入从集群管理器导入选项。这个方法是最简单的。

  2. 如果您不使用或没有访问集群管理器的权限,但可以请求客户端配置文件,然后使用导入向导图标导入Hadoop配置文件选项

  3. 否则,你总是可以选择手动连接图标手动添加连接。最后一个选项还允许您导入某人与您共享的Radoop连接点击编辑XML…按钮,一旦连接设置对话框出现了。

注意:在配置RapidMiner Radoop时,必须提供主节点的内部域名或IP地址(即主节点知道的自身的域名或IP地址)。看到网络设置概述有关如何确保您的资料不受未经授权的访问的详细信息。

RapidMiner Radoop基本连接配置

一旦安装了RapidMiner Radoop,您就可以创建一个连接。

  1. 重新启动RapidMiner Studio,使其能够识别RapidMiner Radoop扩展。重新启动后,您将看到一个新的编辑数据连接图标管理Radoop连接选项中的连接菜单:

  2. 选择编辑数据连接图标管理Radoop连接菜单项和管理Radoop连接窗口:

    有关此对话框的详细信息,请参见管理Radoop连接下面的部分。

  3. 点击新建连接图标新连接按下并选择手动连接图标手动添加连接

    如果希望通过导入客户机配置文件或使用集群管理服务来创建连接,请阅读导入Hadoop配置部分。

  4. 属性中编辑连接属性连接设置对话框。

    您可以在对话框的顶部提供连接的名称。可以通过选择左侧的适当选项卡来配置其他设置。完成下面列出的所需连接字段。请注意,DNS和反向DNS应该适用于所有指定的地址,因此客户机机器必须能够访问集群的网络名称解析系统,或者能够在本地解析地址。

    选项卡 描述
    全球 Hadoop版本 为这个连接定义Hadoop版本类型的发行版。
    Hadoop NameNode地址 运行NameNode服务的节点的地址(通常是主机名)。
    Hadoop 资源管理器地址 运行资源管理器服务的节点的地址(通常是主机名)。
    蜂巢 Hive服务器地址 运行Hive Server或Impala Server的节点地址(通常为主机名)。
    火花 火花版本 集群上可用的Spark版本。
    火花 Assembly Jar Location / Spark Archive(或lib)路径 Spark Assembly Jar文件/ Spark Jar文件的HDFS位置或本地路径(在所有集群节点上)。

    详情请参见高级连接设置下面的部分。

    点击好吧好吧创建连接项。

  5. 点击Save图标保存将条目添加到可用连接中。

  6. 测试连接RapidMiner Radoop和Hadoop集群之间。如果有必要,在Hadoop管理员的帮助下,设置高级设置基于具体发行说明

您的连接设置保存在一个名为radoop_connections.xml在你的.RapidMiner目录中。

导入连接

对于更复杂的集群,手动配置连接可能很麻烦。在这种情况下,建议使用其中一个连接导入特性。有两种选择:您可以使用集群的客户端配置文件创建连接,或者为集群的管理服务(Cloudera Manager或Ambari)提供URL和凭据。

您可以通过从客户机配置文件设置其参数来创建Radoop连接。要做到这一点,选择导入向导图标导入Hadoop配置文件选项添加新连接时。在下面的对话框中设置文件的位置:

您可以选择一个或多个文件夹或压缩文件(例如邮政编码tar.gz)中包含配置XML文档,或者您可以简单地导入单个xml文件。你可以很容易地得到这些文件,通过使用发行者的Hadoop管理工具。点击导入配置图标导入配置然后等待,直到弹出窗口显示导入过程的结果:

  • 成功的图标成功:你可以继续下一步了。
  • 警告图标警告:有些字段会丢失,这些可以在下一步中提供。显示详细信息图标显示详细信息按钮通知您问题。
  • 失败的图标失败:你得走了返回图标回来并选择适当的文件。

点击下一个图标下一个会带你到连接设置对话框,您将在其中找到可以自动导入的所有属性。一些必需的字段可能仍然缺失。编辑器将用红色边框和错误消息突出显示它们。如果选项卡包含缺少值的字段,则用错误符号标记。

您可以通过为集群的管理服务提供URL和凭据来创建连接。在本例中,选择从管理器图标导入从集群管理器导入选项,以获得以下对话框:

需要填写的字段如下:

  • 集群管理器URL:集群管理服务的URL。对于类似HDP的连接(HDP、HDInsight、IOP、IBM等),这通常是Apache Ambari,它通常默认在端口8080上运行(HDInsight除外,通常不需要提供端口)。对于CDH连接,这是Cloudera Manager,默认情况下在端口7180上运行。请注意协议前缀(通常是http, https)。如果协议缺失,将自动使用“http://”。
  • 用户名:集群管理器用户名。请注意,用户需要拥有客户端配置的特权。只读权限足以检索大多数连接属性。虽然不需要使用admin用户,但是可以检索需要手动提供的进一步设置。
  • 密码:提供的集群管理器用户的密码。

填写完字段后,单击导入配置图标导入配置启动导入过程。如果集群管理器管理多个集群,将弹出以下输入对话框。选择要连接的集群的名称。

连接导入可以有两种结果:

  • 成功的图标成功:你可以继续下一步了。
  • 失败的图标失败:你得走了返回图标回来并修复URL或凭证。,可以看到详细的错误显示详细信息按钮。
    • 如果失败是由于不受信任的证书引起的,用户将收到通知并显示证书详细信息,并提供信任证书并继续从Cluster Manager导入的选项。

成功导入连接后,连接设置对话框将弹出。在这里,您可以更改连接的名称,并手动完成连接配置。

  • 缺少值的必填字段将用红色边框和错误消息突出显示。包含缺少值的字段的选项卡将被标记为错误符号。
  • 可能需要更改默认值的字段用橙色边框突出显示,并且选项卡上标有警告标志。请注意,如果使用Apache Ambari作为集群管理器,Hadoop版本会自动设置为HDP。例如,在IBM和ODP发行版的情况下,需要手动更改Hadoop版本。

在从导入创建Radoop连接期间,可能会检测到重复的属性。
如果检测到重复属性,则按照以下方式消除与前一个属性值的冲突。
解除冲突是基于属性起源的,并按以下降序解决:
-纱线产地
-核点原点
-按加工顺序排列的其他产地

优先级在相同的起源,遵循顺序读排序。

如果属性值被替换,将提供INFO级别的日志,说明键、值/原点是什么,以及现在应用的值/原点是什么。

管理Radoop连接窗口

Manage Radoop Connections窗口显示已经配置的连接,并允许您编辑它们,或者创建和测试新的连接:

这个窗口由3个面板组成。左上角面板列出了所有已知的连接项。每个条目可能会有一个或多个图标显示一些附加信息,即:

  • 火花图标此连接配置了Spark
  • 黑斑羚图标该连接使用Impala作为查询引擎
  • 锁图标连接到安全集群

当前所选连接的基本属性聚集在右侧面板上。在选择的连接上也有执行几个操作的按钮:

  • 配置图标配置…:打开“连接设置”对话框,您可以在其中配置连接属性。检查高级连接设置节获取更多详细信息。
  • Save图标保存:保存当前显示的连接。
  • 另存为图标另存为…:保存当前显示的连接的副本。用于保存稍微修改过的连接,同时保留原始条目。
  • 快速测试图标快速测试:对当前显示的连接运行快速测试。
  • 完整测试图标完整的测试……:在此连接上运行完整集成测试。有关连接测试的更多信息,请参见测试RapidMiner Radoop连接部分。
  • 重命名的图标重命名操作:重命名当前连接。请注意,所有连接名称都应该是唯一的。

下面板显示运行测试的日志。也可以在这个面板上执行几个操作:

  • 提取日志提取日志……:此操作创建一个捆绑的zip文件,其中包含最近与radoop相关的活动的所有相关日志。看到相关的部分了解更多详情。
  • 清除日志清除日志:清除连接日志字段。
  • 停止图标停止测试:停止测试操作将停止当前正在运行的测试执行(参见测试RapidMiner Radoop连接部分)。

测试RapidMiner Radoop集群连接

RapidMiner Radoop的内置测试功能有助于在故障开始之前进行故障排除。

基本连接测试

单击快速测试图标快速测试按钮管理Radoop连接窗口,以测试到集群的连接。通过对集群上不同组件(api)的一系列简单测试,该测试验证集群正在运行,并且RapidMiner Radoop客户端可以访问它。您可以随时通过单击停止图标停止测试按钮。

全连接测试

测试成功后,通过单击按钮运行完整的测试(可能需要几分钟)完整测试图标完整的测试……按钮。可以自定义完整的连接测试自定义图标自定义…按钮。在此面板中,您可以启用或禁用测试、更改超时以及启用或禁用测试后的清理。控件关闭后,这些值将重置为默认值管理Radoop连接窗口。点击运行运行开始测试。

完整测试在集群上启动几个作业和应用程序,然后检查结果。通过成功和广泛地练习RapidMiner Radoop与集群的交互,您可以对RapidMiner Radoop过程的设计和执行充满信心。

除了在第一次创建RapidMiner Radoop配置时测试连接外,还可以使用完整的测试如果在进程执行中出现错误或在集群中发生更改。完整测试结果的输出可以帮助确定问题的根本原因,从而更容易进行故障排除。您可以随时通过单击停止图标停止测试按钮。停止当前的测试进程可能需要一些时间。

注意:当您打开包含RapidMiner的进程时,集群连接初始测试也会在后台自动启动Radoop巢操作符(由RapidMiner Studio屏幕右下角的状态栏表示)。

高级连接设置

你可以使用连接设置对话框编辑连接参数。例如,您可以更改端口号或使用键值对为Hadoop和Hive定义任意参数。在未咨询组织的IT管理员之前,请勿修改连接设置。打开连接设置对话框,单击配置图标配置…按钮管理Radoop连接窗口。

请注意:显示的字段取决于选择(例如选择的Hadoop版本)。此外,根据基本设置中的Hadoop版本选择预填充一些字段。如果一个字段是大胆的在窗口中,它是必需的。

连接设置对话框有多个选项卡。下表描述了每个选项卡中的字段。有关与环境相关的高级配置详细信息,请参见具体发行说明

全球

描述
Hadoop版本 为这个连接定义Hadoop版本类型的发行版。
其他图书馆目录 客户机上的任何附加库(JAR文件)都需要连接到集群(可选,仅适用于专家用户)。
启用Kerberos 选中此框连接到Kerberos保护的Hadoop集群。
客户端主要 仅在启用Kerberos安全性和禁用服务器模拟的情况下。访问Hadoop的用户主体。格式为primary[/]@,其中primary通常是用户名,instance是可选的,而REALM是Kerberos领域。例如:用户/ client.www.turtlecreekpls.com@RAPIDMINER.COM。
使用密码代替keytab文件 仅在启用Kerberos安全性的情况下。选中此框以使用密码而不是密钥选项卡文件进行身份验证。
KeyTab文件 用户keytab文件在客户端机器上的路径。输入或浏览到文件位置。
密码 仅在启用Kerberos安全性并选中“使用密码而不是keytab文件”选项的情况下。可用于连接到安全集群的Kerberos密码。RapidMiner Radoop使用密码。radoop_connections.xml中加密密码的密钥文件。
KDC地址 仅在启用Kerberos安全性的情况下。Kerberos密钥分发中心地址。例如:kdc.www.turtlecreekpls.com。
领域 仅在启用Kerberos安全性的情况下。Kerberos领域。通常是大写字母的域名。例如:RAPIDMINER.COM。
Kerberos配置文件 仅在启用Kerberos安全性的情况下。为了避免运行RapidMiner的机器与Hadoop集群之间的配置差异,最好提供Kerberos配置文件(通常是krb5.conf或krb5.ini)。从您的安全管理员处获取此文件。输入或浏览到文件位置。
日志收集超时时间 收集YARN聚合日志的超时时间(以秒为单位)。0表示关闭该功能。如果您的集群禁用了YARN日志聚合功能,建议关闭此功能。
自动清洗间隔 Radoop自动清理服务的间隔时间(以天为单位)。Radoop将清理超过给定阈值的所有临时表、文件和目录。零值表示不执行自动清洗。
Hadoop的用户名 Hadoop用户名。在大多数情况下,用户必须对集群具有适当的权限。对于新连接,默认为操作系统用户。

Hadoop

描述
NameNode地址 运行NameNode服务的节点的地址(通常是主机名)。(需要一个可用的网络名称解析系统)
NameNode港口 NameNode服务的端口。
资源管理器地址 运行资源管理器服务的节点的地址(通常是主机名)。
资源管理器端口 资源管理器服务的端口。
JobHistory服务器地址 运行作业历史记录服务器服务的节点的地址(通常是主机名)。
JobHistory服务器端口 作业历史记录服务器服务的端口。
连接超时 Radoop等待连接变为可用的超时时间(以秒为单位)。0表示默认值(30)。增加该值将有助于减轻由高网络或集群延迟引起的超时。
从Hive中检索服务主体 仅在启用Kerberos安全性的情况下。如果选中,RapidMiner Radoop会自动从Hive中检索所有其他服务主体,以便更轻松地配置。只有在访问其他服务时出现问题时才禁用此设置。
NameNode主要 仅在启用Kerberos安全性和禁用Hive主体检索的情况下。NameNode服务的主体。可以使用_HOST关键字作为实例。例如:神经网络/ _HOST@RAPIDMINER.COM
资源经理负责人 仅在启用Kerberos安全性和禁用Hive主体检索的情况下。ResourceManager服务的主体。可以使用_HOST关键字作为实例。例如:rm / _HOST@RAPIDMINER.COM
JobHistory服务器主体 仅在启用Kerberos安全性和禁用Hive主体检索的情况下。JobHistoryServer服务的主体。可以使用_HOST关键字作为实例。例如:jhs / _HOST@RAPIDMINER.COM
存放临时文件的HDFS目录 存放临时文件的HDFS目录。定义Radoop在集群中存储临时文件的路径。如果该目录不存在,那么运行Radoop的客户端用户必须具有创建该目录的权限,并且/或者必须具有该目录的读写权限。
Hadoop高级参数 Key-value属性来定制Hadoop连接和Radoop的Yarn/MapReduce作业。有些连接需要某些高级参数。详细信息请参见具体发行说明

火花

描述
火花版本 集群上可用的Spark版本。有关使用的更多信息火花操作人员,请参阅配置火花部分。
使用默认的Spark路径 选择的Hadoop版本请使用默认的Spark Assembly / Archive路径。注意,您的集群可能有不同的设置,在这种情况下,您必须禁用此设置并正确配置路径。还要注意,集群上可能安装了多个Spark版本,而这个启发式方法可能只选择其中一个。
Assembly Jar Location / Spark Archive(或lib)路径 Spark Assembly Jar文件/ Spark Jar文件的HDFS位置或本地路径(在所有集群节点上)。
Spark资源分配策略 Spark作业的资源分配策略。默认的-动态资源分配从8.1.1和静态,启发式配置在8.1.0中-通常是适用的。查看更多Spark策略信息
资源分配百分比 分配给Spark作业的集群资源百分比。乐鱼体育安装此字段仅在以下情况下启用静态,启发式配置为Spark资源分配策略。
使用自定义PySpark归档 如果您想提供自己的PySpark归档文件,请勾选此框。
自定义PySpark归档路径 只有当使用自定义PySpark归档选项已启用。作为PySpark库用于PySpark作业提交的归档集。看到配置自定义PySpark/SparkR存档的说明
使用自定义SparkR存档 如果您想提供自己的SparkR存档,请选中此框。
自定义SparkR存档路径 只有当使用自定义SparkR存档选项已启用。归档用作SparkR库,用于SparkR作业提交。作为PySpark库用于PySpark作业提交的归档集。看到配置自定义PySpark/SparkR存档的说明
Spark Memory Monitor GC阈值 如果这个百分比的回看时间花在了GC上,内存监视器将终止该进程。
星火记忆监视器回顾秒 以秒数为单位的窗口大小,Spark GC使用监视器将分析。
高级火花参数 自定义RapidMiner Radoop的Spark作业的键值属性。看到Spark配置说明

蜂巢

描述
蜂巢版 选择合适的数据仓库系统—HiveServer2 (Hive 0.13或更新版本)或Impala。或者,您可以选择自定义HiveServer2并提供您自己的Hive jar。
自定义Hive Lib目录 仅选择Custom Hiveserver2。选择一个包含连接到集群所需的库(JAR文件)的目录。
Hive高可用性 如果该集群激活了Hive High Availability(前提是HiveServer访问由ZooKeeper协调),请勾选此框。
Hive Server Address/Impala Server Address 运行Hive Server或Impala Server的节点地址(通常为主机名)。
Hive Port/Impala Port Hive Server或Impala Server的端口。
数据库名称 要连接的数据库的名称。
Hive文件格式 Hive连接默认的存储格式。存储格式通常由Radoop Nest参数定义hive_file_format,但此属性将在新的Radoop nest中设置此参数的默认值。它还定义了Hadoop Data View上新表导入的默认设置。“默认格式”是指使用Hive服务器默认格式(通常是TEXTFILE)。
文件格式的黑斑羚 只有选中了黑斑羚。Impala连接的默认存储格式。存储格式通常由Radoop Nest参数定义impala_file_format,但此属性将在新的Radoop nest中设置此参数的默认值。它还定义了Hadoop Data View上新表导入的默认设置。“默认格式”是指使用Hive服务器默认格式(通常是TEXTFILE)。
JDBC URL后缀 JDBC URL的可选后缀。对于Impala连接,默认为“auth=noSasl”。
用户名 连接到指定数据库的用户名。所有HiveServer2版本的连接默认为“hive”。该用户应该有权访问HDFS目录Radoop用来临时存储文件的。如果此目录位于加密区域中,则用户还应该具有访问加密区域密钥的权限。
密码 连接到指定数据库的密码。Radoop使用cipher.key要加密密码的文件radoop_connections.xml
蜂巢主要 仅在启用Kerberos安全性的情况下。Hive服务的主体。格式为primary[/]@,其中primary通常是用户名,instance是可选的,而REALM是Kerberos领域。不要使用_HOST关键字作为实例。如果Hive没有配置Kerberos,而是使用其他认证机制(例如LDAP),则将此字段保留为空。例如:蜂巢/ node02.www.turtlecreekpls.com@RAPIDMINER.COM。
SASL QoP水平 SASL防护质量等级。此设置必须与集群设置相同。(要找到集群设置,请找到hive.server2.thrift.sasl的值。Qop在hive-site.xml;默认值为“auth”。)
表前缀 新进程的默认Hive临时表前缀。您可以将此前缀指定为Radoop Nest操作符的参数。此属性仅将此参数默认为指定值,因此不同的客户端或用户可以轻松区分集群上的临时对象。
Hive命令超时时间 超时,对于应该返回的简单Hive命令,以秒为单位。零表示默认值(30)。此设置定义了Radoop取消集群上原子操作的时间,因为该命令最多应该在几秒钟内完成。如果连接延迟较高或变化间隔较大,则可以增加此值。
连接池大小 Hive JDBC连接池大小。如果你想并行运行许多操作(例如在RapidMiner服务器上),请增加它。
连接池超时 等待可用连接的超时时间(以秒为单位)。
Hive on Spark / Tez容器重用 如果您想从中受益,请勾选此框Hive on Spark / Hive on Tez容器重用
集装箱池固定大小 如果连接中启用了容器重用,则Spark容器上的Hive个数。容器重用通过消除容器启动时间开销使Hive on Spark查询运行得更快。请注意,即使没有正在运行的查询,容器也会持续保留集群资源。乐鱼体育安装您可以使用下面的空闲时间设置来关闭未使用的容器,并在空闲期间后释放资源。乐鱼体育安装建议监控集群资源以找到正确的设置。乐鱼体育安装如果设置为0,将根据集群资源使用估计值。乐鱼体育安装
容器池超时 等待可用容器的超时时间,以秒为单位。输入0表示无限期地等待资源。乐鱼体育安装
集装箱闲置时间 Tez容器上Spark / Hive上空闲Hive后的时间将关闭,以秒为单位。输入0禁用关闭空闲容器。
udf是手动安装的 如果在集群上手动安装了Radoop udf,请选中此框。关于手动UDF安装的更多信息可以在操作与维护页面。
为udf使用自定义数据库 如果应该使用自定义数据库来存储和访问Radoop udf,请选中此框。当更多的用户(拥有不同的项目数据库和授予的特权)希望使用Radoop时,这很有用。所有人都应该可以访问这个公共数据库。udf仍然可以自动或手动创建。
udf的自定义数据库 仅当选中“为udf使用自定义数据库”时。定义专门用于存储Radoop udf的数据库(见上文)。数据库必须存在。
Hive高级参数 Key-value属性用于自定义Hive的行为。

Radoop代理

描述
使用Radoop代理 如果您希望通过a访问Hadoop集群,请勾选此框Radoop代理
Radoop代理连接 仅当启用了Radoop Proxy时。该字段由两个下拉选择器组成,它们共同定义用于访问集群的Radoop Proxy。第一个定义了Radoop Proxy的位置。可以是本地的,也可以是配置的RapidMiner Server存储库之一。第二个是Radoop Proxy的标识符。

RapidMiner服务器

此选项卡包含一些影响RapidMiner服务器执行的多用户配置设置。有关更多信息和最佳实践解决方案,请参见相关的部分在服务器上安装Radoop页面。

描述
在服务器上启用模拟 如果您想在RapidMiner服务器上使用模拟(代理)Hadoop用户,请选中此框。
服务器主要 仅启用Kerberos安全性和服务器模拟。RapidMiner Server访问集群时使用的主体。格式为primary[/]@,其中primary通常是用户名,instance是可选的,而REALM是Kerberos领域。例如:用户/ server.www.turtlecreekpls.com@RAPIDMINER.COM。请注意,此设置仅影响服务器上的执行。
服务器Keytab文件 仅启用Kerberos安全性和服务器模拟。服务器计算机上服务器keytab文件的路径。
用于本地测试的模拟用户 仅当启用服务器上的模拟时。用于模拟从Studio本地测试服务器连接的服务器用户。
访问白名单 访问此连接的服务器用户的正则表达式。将其保留为空或使用“*”来启用对所有用户的访问。

XML连接编辑器

可以手动编辑Radoop连接XML编辑XML…按钮上的连接设置对话框。请注意,应该谨慎使用此特性,因为通过XML编辑器很容易在连接条目中出错。编辑器的主要目的是使连接共享和复制粘贴它的某些部分(例如:Hadoop高级参数)容易多了。当您使用OK按钮关闭窗口时,您的更改将显示在Connection Settings对话框的字段中。

注意:添加一个单独的键属性< radoop-connection-entry >标记将不起作用。它只能被添加进去radoop_connections.xml,手动。

配置非默认属性

如果您的Hadoop集群使用非默认属性,则可能需要额外的键值对。像Cloudera Manager和Ambari这样的集群管理工具允许您这样做下载客户端配置文件。您可能需要将这些文件中的集群连接相关属性添加到Hadoop高级参数部分Hadoop选项卡。请参阅下面频繁设置的单个属性,以及描述连接到启用了高可用性(High Availability, HA)的集群所需属性的更复杂示例。下表列出了可能需要的客户端设置的键。应该将这些值设置为客户端配置文件中的适当属性值。注意,并非与这些特性相关的所有键都是必需的,所需的键值对集取决于您的集群设置。

关键 描述
dfs.client.use.datanode.hostname 指示客户端连接datanode时是否使用datanode主机名。将其设置为true可能允许使用数据节点的公共网络接口而不是私有网络接口。默认情况下,使用从集群检索到的属性值。如果没有正确设置,DataNode联网测试(完整连接测试的一部分)将显示警告。例如:看CDH快速入门虚拟机
mapreduce.job.queuename 提交作业的队列。系统必须配置此预定义队列,并且必须授予向其提交作业的访问权限。当使用非默认队列时,必须在这里显式地定义它。例子:low_priority

配置到支持HA hdfs的集群的连接只需要在文件中指定适当的Hadoop设置Hadoop高级参数部分Hadoop选项卡。

HA特性通过提供备用(除了主)NameNode来消除集群的任何单点故障。HA实现手动切换和自动故障转移,以提供持续可用性。下表列出了RapidMiner Radoop客户端连接到集群所需的设置。这些属性必须在每个集群节点配置文件中配置。要了解更多细节,请参阅Hadoop文档。

关键 描述
fs.defaultFS(或fs.default.name Hadoop FS的默认路径通常包含启用ha的集群的NameService ID。例子:hdfs: / / nameservice1
dfs.nameservices 服务的逻辑名称。例子:nameservice1
dfs.ha.namenodes。< nameservice ID > 以逗号分隔的唯一NameNode标识符列表。例子:namenode152, namenode92
dfs.namenode.rpc-address。< nameservice ID >。< namenode ID > 每个要侦听的NameNode的RPC地址。例子:node01.example.com: 8020
dfs.client.failover.proxy.provider。< nameservice ID > HDFS客户端用来联系主NameNode的类。目前Hadoop只提供了一个选项。例子:org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

设置到启用HA资源管理器的集群的连接只需要在Hadoop高级参数部分Hadoop选项卡。

RM (Resource Manager) HA特性使用主备RM对消除单点故障(增加冗余)。下表列出了RapidMiner Radoop客户端连接到集群所需的设置。这些属性必须在每个集群节点配置文件中配置。要了解更多细节,请参阅Hadoop文档。

关键 描述
yarn.resourcemanager.ha.enabled 启用资源管理器高可用性。
yarn.resourcemanager.ha.automatic-failover.enabled 启用自动故障转移。缺省情况下,只在启用HA时启用。
yarn.resourcemanager.ha.automatic-failover.embedded 启用自动故障转移时,使用嵌入式leader-elector选择活动RM。缺省情况下,只在启用HA时启用。
yarn.resourcemanager.zk-address ZK-quorum的地址。用于状态存储和嵌入式领导者选举。
yarn.resourcemanager.cluster-id 标识集群。由选择器使用,以确保RM不会作为活动集群接管另一个集群。例子:yarnRM
yarn.resourcemanager.ha.id 标识集成中的RM。可选,但如果设置了,请确保所有rm都有唯一的ID。
yarn.resourcemanager.ha.rm-ids rm的逻辑id列表,以逗号分隔。例子:rm274, rm297
yarn.resourcemanager.address。< rm-id > 每个RM ID对应的服务地址。
yarn.resourcemanager.scheduler.address。< rm-id > 每个RM ID的调度程序地址。
yarn.resourcemanager.resource-tracker.address。< rm-id > 每个RM ID的资源跟踪器地址。
yarn.resourcemanager.admin.address。< rm-id > 每个RM ID对应RM管理地址。
yarn.resourcemanager.store.class 要用作RM恢复的持久存储的类。

为RapidMiner Radoop连接配置Spark

通过为RapidMiner Radoop连接配置Spark,您可以启用Spark操作符。查看每个操作符的确切Spark版本要求在Studio上安装Radoop页面。

要启用Spark,请选择有效的火花版本的下拉列表中连接设置对话框。

必须提供以下强制性输入火花标签连接设置对话框:

描述
火花版本 下拉列表,选择集群支持的Spark版本。
  • 如果Spark不在集群中或不需要,请选择“无”。
  • 1.6火花。2.0 x。2.1 x。2.2 x。X或2.4。X选择对应的值。
  • 2.3火花。x用户需要根据Spark补丁版本号进行选择。Spark 2.3.0将是Spark 2.3.0,对于所有其他2.3。x版本选择Spark 2.3.1+。
Assembly Jar位置/ Spark Archive(或lib)路径 特定于发行版的Spark组装JAR文件/ Spark JAR文件所在的HDFS或本地路径。如果您提供了一个本地路径,那么它在集群中的每个节点上必须是相同的。如果集群上自动安装了Spark(例如与Cloudera Manager或Ambari一起安装),建议指定本地路径。对于某些Hadoop版本,预构建的Spark程序集JAR可以从Apache Spark下载页面。一些供应商(如Cloudera)提供了特定于发行版的Spark组装JAR。关于JAR文件的HDFS路径,请咨询Hadoop管理员。以手工安装Spark 1.6为例,请参考火花要求部分。如果您按照这里的说明操作,那么您的程序集jar将位于HDFS的以下位置:hdfs: / / / tmp / / spark-assembly-1.6.0-hadoop2.6.0.jar火花
Spark资源分配策略 Spark需要指定允许使用的集群资源。乐鱼体育安装参见Spark资源分配策略描述
高级火花参数 可以应用于Spark-on-YARN作业的键值对。如果更改对Spark作业没有影响,则很可能会被YARN本身忽略。中的属性应用程序日志,设置spark.logConf为true。

为Spark配置自定义PySpark/SparkR档案

Radoop随PySpark和SparkR档案一起发布,用于支持每个次要(x.y) Spark版本火花脚本操作符。在大多数情况下,对所有子版本(x.y.z)使用这些存档就足够了。然而,Hadoop发行版提供的某些Spark小版本(例如2.2和2.3)有多个不兼容的补丁版本,这些版本的行为与Python/R进程<-> JVM通信方面不同。这些小版本不能通过提供一套档案来解决。因此,在连接编辑器中引入了自定义PySpark和SparkR存档选项。当启用这些选项时,Radoop使用用户提供的存档来执行火花脚本操作符,而不是与Radoop捆绑在一起的。这些归档文件通常随Hadoop发行版和Spark一起发布,因此通常位于Spark安装文件夹附近。此功能由以下额外设置处理:

描述
使用自定义PySpark归档 如果您想提供自己的文件,请勾选此框PySpark档案。
自定义PySpark归档路径 仅当启用“使用自定义PySpark存档”选项时。用作。的档案集PySpark库,PySpark作业提交。您通常需要在这里提供两个归档文件,pyspark.zip和py4j-*.zip。这些文件的确切名称和访问路径取决于集群的Hadoop和Spark版本。由于需要提供至少两个项,因此该参数接受多个值。每个条目都可以作为HDFS位置(hdfs:// protocol),作为在同一位置的所有集群节点上可用的文件(本地:// protocol),或作为客户端机器上的文件(file:// protocol)。在样例HDP 3环境中,使用本地路径的必要条目如下本地:/ / / usr /黄芪丹参滴丸/电流/ spark2-client / python / lib / pyspark.zip本地:/ / / usr /黄芪丹参滴丸/电流/ spark2-client / python / lib / py4j-0.10.7-src.zip
使用自定义SparkR存档 如果您想提供自己的文件,请勾选此框SparkR档案。
自定义SparkR存档路径 只有当“使用自定义SparkR存档”选项被启用时。档案用作SparkRSparkR作业提交。此路径可以作为HDFS位置(hdfs:// protocol)或作为客户端机器的文件(file:// protocol)。警告!该参数不支持指定集群节点(local:// protocol)上可用的归档文件。因此,如果您的归档文件可以在集群节点上访问,您首先需要将其上传到HDFS,并使用HDFS的位置作为此参数。在示例HDP 3环境中,该文件位于/usr/hdp/current/spark2-client / R / lib / sparkr.zip。在下面的示例中,此文件被上传到hdfs: / / / tmp / sparkr.zipHDFS的位置,然后由这个参数引用。

Spark资源分配策略

RapidMiner Radoop支持以下资源分配策略:

动态资源分配

  • 从8.1.1开始的默认选项。虽然此策略需要在服务器上进行配置,但许多服务器已经安装了此策略。

  • 使用此策略时,您可能需要在集群上配置外部shuffle服务。有关所需集群配置步骤的详细信息,请参阅Spark动态分配文档

  • 可以定义以下属性高级火花参数火花选项卡的连接设置对话框:

    ——“spark.dynamicAllocation。minexecuors ' - ' spark. dynamicallocation . maxexecuors '
  • 集群特定信息

静态,启发式配置

  • 这是8.1.0和以前版本中的默认策略。如果使用此选项,则不需要设置任何高级资源分配设置。的资源分配百分比字段设置用于Spark作业的集群资源(集群内存、内核数)的百分比。乐鱼体育安装注意,如果将这个值设置得太高,集群上的其他作业可能会受到影响。默认值为70%。

静态、默认配置

  • 使用Spark默认设置进行资源分配的策略。这个值非常低,可能不支持真正的集群,但它可能是虚拟机/沙箱的可行选项。

静态、手动配置

  • 此策略要求您设置以下属性高级火花参数火花标签连接设置对话框。的火花的文档描述每个属性。(对应的Spark on YARN命令行参数在括号中显示。)
    • spark.executor.cores——executor-cores
    • spark.executor.instances——num-executors
    • spark.executor.memory——executor-memory
    • (可选)spark.driver.memory——driver-memory

请注意:因为火星- 6962, RapidMiner Radoop修改的默认值spark.shuffle.blockTransferServicenio而不是网状的。要覆盖此设置,请在高级火花参数字段配置键spark.shuffle.blockTransferService网状的。从1.6.0开始,该设置将被Spark忽略BlockTransferService总是网状的

Hive on Spark和Hive on Tez容器重用

重用Hive执行引擎的容器可以极大地加快Radoop进程,特别是在有很多Hive专属任务的情况下。它是通过保持许多Spark / Tez容器(应用程序)处于运行状态来执行Hive查询来实现的。请记住,即使没有正在运行的进程,这些容器也将使用集群资源。乐鱼体育安装默认情况下,Radoop尝试估计容器的最佳数量,但也可以在设置中将其更改为固定数量(见下文)。空闲容器在超时后自动关闭。

要使用此特性,您的集群必须支持Hive on Spark或Hive on Tez,并且在您的连接中必须设置hive.execution.engine火花特斯Hive高级参数并检查Hive on Spark / Tez容器重用复选框(这是默认值):

可以使用许多全局Radoop设置来控制容器重用行为。您可能想要测试不同的设置以最佳地使用您的集群,请参阅Radoop设置获取详细信息。

由于Hive on Spark / Hive on Tez容器一直在运行并保留集群资源,如果您运行其他MapReduce, Spark或Tez作业,您可能很容易在乐鱼体育安装小集群(例如快速启动虚拟机)上耗尽内存/内核。为了防止这种情况,在启动MapReduce或Spark作业之前,Radoop会自动停止这些容器。(空闲容器无论如何都会被关闭,但这允许在空闲超时之前关闭它们,正好在需要资源的时候。)乐鱼体育安装

黑斑羚连接

如果您正在配置Impala连接一些Hadoop高级参数需要手工添加。如果您忘记添加其中的任何一个,则会出现一条警告消息,警告您缺少这些内容。的添加必要的条目按钮将这些属性的键添加到列表中,但必须根据集群配置手动设置它们的值。

升级RapidMiner Studio或Server时,进一步的设置可能成为强制性的,这可能意味着Impala连接可能需要更新新的高级设置。