您正在查看的是RapidMiner Radoop 9.2 -版本文档查看最新版本

操作与维护

手动安装RapidMiner Radoop功能

RapidMiner Radoop功能自动安装在Radoop连接中配置的Hive数据库中。以下手册安装步骤如下只有如果Radoop(更准确地说，是Radoop连接中配置的Hadoop用户)不允许从上传到HDFS的jar文件中创建函数，则必须这样做。

RapidMiner Radoop自动上传两个文件(radoop_hive-vX.jar而且rapidminer_libs——<版本> . jar)，并使用它们来定义自定义的Hive函数(udf)。对于安全的Hadoop集群，这可能是禁止的，因此Hadoop管理员需要安装这些udf。有两种方法:

当使用Cloudera发行版时，使用RapidMiner提供的包(推荐);
手动分发和安装jar文件。

下面的两个分步指南描述了这两个选项。

第一个选项:使用Cloudera包安装jar文件

RapidMiner Radoop udf也可以在Cloudera包裹格式。可以从以下url获取包。请注意，您必须选择URL基于RapidMiner Studio / Server版本和不Radoop扩展版本。

RapidMiner版本	URL
9.1(最新)	`https://radoop-parcel.www.turtlecreekpls.com/latest/`
9.0	`https://radoop-parcel.www.turtlecreekpls.com/9.0.0/`
8.2	`https://radoop-parcel.www.turtlecreekpls.com/8.2.0/`
8.1	`https://radoop-parcel.www.turtlecreekpls.com/8.1.0/`
8．0	`https://radoop-parcel.www.turtlecreekpls.com/8.0.0/`
7.6	`https://radoop-parcel.www.turtlecreekpls.com/7.6.1/`
7．5	`https://radoop-parcel.www.turtlecreekpls.com/7.5.0/`

这个包可以通过Cloudera Manager通过点击顶部工具栏上的包图标来安装:
在这里您可以看到所有已安装/配置/可用的包
点击配置按钮，并将以下URL添加到远程包裹存储库url通过单击任何加号按钮列出:https://radoop-parcel.www.turtlecreekpls.com/latest/
根据您的配置，您可能会列出具有不同状态的多个包版本。
点击下载获取最新版本
下载包后，您必须分发它到达节点
最后一步是激活这个包裹
如果激活对话框中没有显示服务重新启动选项，您可以重新启动纱而且蜂巢人工服务。
在Hive中创建udf脚本匹配您的Radoop版本

有关安装和管理Cloudera包的更多信息，请访问Cloudera Manager文档

第二个选项:手动安装jar文件

RapidMiner Radoop自动上传两个文件(radoop_hive-vX.jar而且rapidminer_libs——<版本> . jar)，并使用它们来定义自定义的Hive函数(udf)。对于安全的Hadoop集群，这通常是禁止的，因此Hadoop管理员需要手动安装这些udf。即使在没有安全性的Hadoop集群中，出于性能考虑，您也可能决定手动安装这些udf，这样就不会为每个作业分发它们。注意，在这种情况下，RapidMiner Radoop升级也可能需要手动步骤。

下载两个RapidMiner Radoop UDF JAR文件。请注意，您必须选择URL基于RapidMiner Studio / Server版本和不Radoop扩展版本。

RapidMiner版本	链接
9.1(最新)	模型评分UDF，蜂巢UDF
9.0	模型评分UDF，蜂巢UDF
8.2	模型评分UDF，蜂巢UDF
8.1	模型评分UDF，蜂巢UDF
8．0	模型评分UDF，蜂巢UDF
7.6	模型评分UDF，蜂巢UDF
7．5	模型评分UDF，蜂巢UDF

将下载的JAR文件复制到的本地文件系统每一个节点。每个节点上JAR文件的路径必须相同。例如,/usr/local/lib/radoop/radoop_hive-v4.jar而且/usr/local/lib/radoop/rapidminer_libs-9.1.0.jar．
将JAR文件添加到Hive类路径，方法是将它们复制或链接到HIVE_HOME / lib /美元文件夹中。你必须这么做只有HiveServer2服务所在的节点上。做不修改JAR文件名。
将JAR文件添加到MapReduce应用程序类路径mapreduce.application.classpath的财产mapred-site.xml或者在Ambari或Cloudera Manager中执行同样的操作。例如，添加/usr/local/lib/radoop/radoop_hive-v4.jar: / usr /地方/ lib / radoop / rapidminer_libs-9.1.0.jar以现有值，以：的性格。当使用Tez上的蜂巢,tez.cluster.additional.classpath.prefix的属性(tez-site.xml)应该改为mapreduce.application.classpath．请注意，对于某些发行版，这些属性可能为空。在此更改之后，可能需要重新启动YARN。
重启HiveServer2。
在Hive中创建udf脚本匹配您的Radoop版本

升级集群时时，上述步骤可能需要再次执行，例如Ambari删除并重新创建HIVE_HOME / lib /美元文件夹中。如果jar文件不是出现在每个节点上，则像无法找到类:eu.radoop.datahandler.hive.udf.GenericUDTFApplyModel可能会被扔。

手动创建函数

作为一个管理用户(或具有CREATE FUNCTION权限的用户)，连接到HiveServer2(例如使用Beeline)，并在RapidMiner Radoop用户将使用下面的命令连接到的所有数据库中创建永久函数。请更改脚本第一行中的数据库名称，并为所有相关数据库执行脚本。你也有机会定义一个Radoop udf专用数据库，所有Radoop用户都应该使用(因此也可以访问)．然后应该仅为单个数据库创建函数。
对于Radoop连接，请检查udf是手动安装的方框连接设置对话框。

为Rapidminer Radoop 7.3及以上版本创建Function语句

使用radoop_user_sandbox;删除函数r3_add_file删除函数r3_apply_model删除函数r3_correlation_matrix;删除函数r3_esc;r3_gaussian_rand;删除函数r3_greatest删除函数r3_is_eq删除函数r3_least删除函数r3_max_index DROP FUNCTION IF EXISTS r3_nth; DROP FUNCTION IF EXISTS r3_pivot_collect_avg; DROP FUNCTION IF EXISTS r3_pivot_collect_count; DROP FUNCTION IF EXISTS r3_pivot_collect_max; DROP FUNCTION IF EXISTS r3_pivot_collect_min; DROP FUNCTION IF EXISTS r3_pivot_collect_sum; DROP FUNCTION IF EXISTS r3_pivot_createtable; DROP FUNCTION IF EXISTS r3_score_naive_bayes; DROP FUNCTION IF EXISTS r3_sum_collect; DROP FUNCTION IF EXISTS r3_which; DROP FUNCTION IF EXISTS r3_sleep; CREATE FUNCTION r3_add_file AS 'eu.radoop.datahandler.hive.udf.GenericUDFAddFile'; CREATE FUNCTION r3_apply_model AS 'eu.radoop.datahandler.hive.udf.GenericUDTFApplyModel'; CREATE FUNCTION r3_correlation_matrix AS 'eu.radoop.datahandler.hive.udf.GenericUDAFCorrelationMatrix'; CREATE FUNCTION r3_esc AS 'eu.radoop.datahandler.hive.udf.GenericUDFEscapeChars'; CREATE FUNCTION r3_gaussian_rand AS 'eu.radoop.datahandler.hive.udf.GenericUDFGaussianRandom'; CREATE FUNCTION r3_greatest AS 'eu.radoop.datahandler.hive.udf.GenericUDFGreatest'; CREATE FUNCTION r3_is_eq AS 'eu.radoop.datahandler.hive.udf.GenericUDFIsEqual'; CREATE FUNCTION r3_least AS 'eu.radoop.datahandler.hive.udf.GenericUDFLeast'; CREATE FUNCTION r3_max_index AS 'eu.radoop.datahandler.hive.udf.GenericUDFMaxIndex'; CREATE FUNCTION r3_nth AS 'eu.radoop.datahandler.hive.udf.GenericUDFNth'; CREATE FUNCTION r3_pivot_collect_avg AS 'eu.radoop.datahandler.hive.udf.GenericUDAFPivotAvg'; CREATE FUNCTION r3_pivot_collect_count AS 'eu.radoop.datahandler.hive.udf.GenericUDAFPivotCount'; CREATE FUNCTION r3_pivot_collect_max AS 'eu.radoop.datahandler.hive.udf.GenericUDAFPivotMax'; CREATE FUNCTION r3_pivot_collect_min AS 'eu.radoop.datahandler.hive.udf.GenericUDAFPivotMin'; CREATE FUNCTION r3_pivot_collect_sum AS 'eu.radoop.datahandler.hive.udf.GenericUDAFPivotSum'; CREATE FUNCTION r3_pivot_createtable AS 'eu.radoop.datahandler.hive.udf.GenericUDTFCreatePivotTable'; CREATE FUNCTION r3_score_naive_bayes AS 'eu.radoop.datahandler.hive.udf.GenericUDFScoreNaiveBayes'; CREATE FUNCTION r3_sum_collect AS 'eu.radoop.datahandler.hive.udf.GenericUDAFSumCollect'; CREATE FUNCTION r3_which AS 'eu.radoop.datahandler.hive.udf.GenericUDFWhich'; CREATE FUNCTION r3_sleep AS 'eu.radoop.datahandler.hive.udf.GenericUDFSleep';

清理RapidMiner Radoop临时表

作为一种高级分析解决方案，RapidMiner Radoop能够将非常复杂的过程推送到Hadoop。它在进程验证、进程执行、数据导入或全连接测试期间在Hadoop中创建临时对象(表、视图、目录、文件)。一旦不再需要这些对象，就会自动删除。也就是说，一旦流程或导入作业或完全连接测试完成或失败，所有相关对象都将被删除。

对于进程，可以更改此默认行为:如果清洁参数。Radoop巢操作符未选中，则在进程完成后将不会删除这些对象。禁用清理的唯一原因可能是调试。在正常的操作过程中，应该始终启用，因为临时对象可能会消耗越来越多的HDFS空间。

在正常操作中，如果每个进程、连接测试或导入作业都完成或失败，所有临时对象都应该被清理。然而，在少数情况下，临时对象不会被删除:

当一个进程或清理阶段仍在运行时，RapidMiner Studio被关闭(或服务器被杀死);
使用断点，因此进程将被停止，然后在此之后不再恢复;
在流程或清洗阶段完成之前，连接将丢失。

在这些情况下，临时对象仍然会被定期清理服务自动移除。当使用RapidMiner Radoop运行RapidMiner Studio时，软件会定期检查遗留的超过5天的临时对象(默认情况下)，并删除它找到的对象。方法中指定以天为单位的间隔，可以修改此服务的间隔设置/ 设置图标 首选项/Radoop/自动清洗间隔设置。

临时对象也可以在Hadoop Data视图中显式地删除。右键单击一个连接，并选择菜单项清理临时数据．弹出的对话框将询问它应该回溯多少天，这意味着它将考虑比这个间隔更早的对象。你可以选择0，它将删除用户的所有临时对象。请注意，如果当前有进程在此集群上运行，那么删除所有临时对象可能会中断它们的运行。弹出的对话框将立即报告您要删除的对象的数量。

临时对象也可以由具有适当权限的用户(例如管理员)手动删除。通过这种方式，您还可以删除其他用户的临时对象，这可能会中断他们的进程运行，所以只有在您确信删除所选对象是安全的情况下才使用这种方法。

临时表和视图很容易与普通表和视图区分开来，因为它们使用了一个共同的前缀:radoop_默认情况下。它们还包含创建对象的用户的名称(仅由小写字母数字字符和下划线字符组成)。该前缀可以更改。使用设置/首选项/Radoop/表前缀设置或表前缀参数。Radoop巢操作符来更改这些临时对象的默认前缀。在Hadoop Data视图中，您可以轻松地过滤这个前缀，选择所有剩余的临时对象并删除它们。对象名还包含时间戳，因此按升序显示最古老的对象在最上面。
HDFS上的临时文件和目录不显示在对象列表中，因此在RapidMiner Studio中不可见。剩余的临时文件不太可能占用HDFS上的大量空间，然而，Hadoop管理员可以轻松地将它们从目录中删除hdfs: / / / tmp / radoop / <用户名> /．所有临时目录名称都以前缀开头tmp_．下面的命令删除特定用户的所有临时文件<用户名>在命令中)。
```
hadoop fs -rm -r -skipTrash /tmp/radoop//tmp_* . hadoop fs -rm -r -skipTrash /tmp/radoop/
```

类别

版本