类别

版本

您正在查看的是RapidMiner Radoop 9.2 -版本文档查看最新版本

RapidMiner Radoop属性设置

下表描述了影响RapidMiner Radoop运行的属性。他们被发现在RapidMiner Studio >设置>首选项下拉菜单对话框Radoop选项卡。

注意，每个内部密钥都以前缀开头rapidminer.radoop．

杂项

财产	内部关键	默认值	描述
HDFS目录	hdfs_directory	/ tmp / radoop /	定义RapidMiner Radoop在HDFS目录集群上存放临时文件的路径。如果该目录不存在，则运行RapidMiner Radoop的用户必须具有创建该目录的权限，并且对该目录具有读写权限。连接Hive数据库的用户需要具有读权限。请注意，不支持将该目录定位在加密区域(不同于Hive warehouse目录)。
表前缀	table.prefix	Radoop_	为新进程定义默认的Hive临时表前缀。属性可以覆盖此前缀Radoop巢指定进程的操作符参数，以便用户可以轻松区分他们在集群上的临时对象。
汽车描述	auto_describe	禁用	切换连接或刷新后是否自动描述所有Hive对象。控件上的切换按钮的状态Hadoop数据视图。Hive对象的所有元数据都是立即获取的，如果有很多对象，这可能会很慢。
描述最大误差	describe.max_errors	5	设置错误阈值。的Hadoop数据如果视图在描述Hive对象时遇到超过这个限制的错误，则认为连接失败。例如，如果有许多Hive对象在描述时出错(例如，缺少自定义输入/输出格式类)，您可能必须增加这个值。
自动清洗间隔	cleaning_interval	5	间隔，以天为单位Radoop自动清洗服务．Radoop清除所有比给定阈值更老的临时表、文件和目录。将其设置为零将禁用自动清理。
Spark内存监视器回看秒	spark.lookbacksecs	300	Spark垃圾收集使用监视器将分析的以秒为单位的窗口大小。
Spark Memory Monitor GC阈值	spark.gctreshold	0.98	如果这个百分比的时间用于垃圾收集，内存监控器将终止该进程。
连接池大小	connection_pool_size	8	Hive JDBC连接池大小。如果您想并行运行许多操作(例如在RapidMiner服务器上)，可以增加它。

样本大小

财产	内部关键	默认值	描述
总体样本量	sample_size.overall	200000	设置套输出上Hadoop数据集的样本量。的输出Radoop巢，它被提取到客户端机器的内存中。使用此值限制数据(示例)的大小。值为0表示完整样本。
样本容量断点	sample_size.breakpoint	1000	在流程中的断点之后以及在Hadoop data视图中设置Hadoop数据集的样本大小。当您使用断点暂停RapidMiner Radoop进程时，已处理数据的示例将被提取到客户端机器的内存中，以便手动检查。使用此值定义示例中的行数。Hadoop数据视图在查看表时也使用这个限制。值为0表示完整样本。

超时值

财产	内部关键	默认值	描述
连接超时	connection.timeout	30.	设置连接的超时时间(以秒为单位)。此设置定义了Radoop取消连接测试(并认为它失败)的时间。如果连接延迟很高，或者间隔变化较大，则可能需要增加此值。0值设置默认值(30秒)。
Hive命令超时	hive_command.timeout	30.	设置允许简单Hive命令返回的超时时间，单位为秒。此设置定义了RapidMiner Radoop取消集群上原子操作的时间。如果连接延迟很大，或者间隔较大，请增加此值。0值设置默认值(30秒)。
日志收集超时时间	log_collection.timeout	30.	设置YARN聚合日志收集的超时时间(以秒为单位)。0禁用该特性。如果您的集群禁用了YARN日志聚合，建议关闭此功能。

Fileformats

财产	内部关键	默认值	描述
Fileformat蜂巢	fileformat.hive	默认的格式	Hive连接的存储格式。存储格式通常由Radoop巢hive_file_format参数，但是这个属性在新的Radoop巢中为参数设置了默认值。属性上的新表导入的默认设置Hadoop数据视图。'默认格式'意味着使用Hive服务器默认(通常是TEXTFILE)。
Fileformat黑斑羚	fileformat.impala	默认的格式	指定Impala连接的存储格式。存储格式通常由Radoop巢impala_file_format参数，但是这个属性在新的Radoop巢中为参数设置了默认值。属性上的新表导入的默认设置Hadoop数据视图。'默认格式'意味着使用Impala默认(通常是TEXTFILE)。

日志记录

财产	内部关键	默认值	描述
启用log4j日志记录	log4j	禁用	确定是否应该将log4j日志收集到用户文件夹中。
Log4j属性文件	log4j . properties		如果启用了log4j日志收集，并且希望使用自己的log4j。属性文件，在这里定义它的位置。该文件必须包含“log4j. log”文件。属性，该属性定义了日志级别和要附加的附加程序。

JDBC连接池

财产	内部关键	默认值	描述
连接池大小	connection_pool.fast_statement.size	8	Hive JDBC连接池大小。如果您想并行运行许多操作(例如在RapidMiner服务器上)，可以增加它。
连接池超时	connection_pool.fast_statement.timeout	85	等待可用连接的超时时间(秒)。

容器池

财产	内部关键	默认值	描述
Hive在Spark容器池上固定大小	connection_pool.container.size	0	设置Radoop可以使用的Hive on Spark应用程序的最大数量。如果设置为0，将根据集群资源使用估计的容器数量。乐鱼体育安装
Hive在Spark容器池超时	connection_pool.container.timeout	0	等待可用容器的超时(秒)。使用0无限期地等待资源。乐鱼体育安装
Hive on Spark / Hive on Tez容器空闲时间	connection_pool.container.idle_time	30.	Hive on Spark / Hive on Tez容器空闲后关闭时间(秒)。使用0禁用关闭空闲容器。