执行过程中的Radoop问题

tasbihmr · 2016年12月

亲爱的所有,

我已经成功地连接了Hive、Spark和Hadoop，并设置了Radoop连接。我现在正在使用Radoop Nest处理“泰坦尼克号”数据的一个例子。我已经把泰坦尼克号的数据在Hive，并希望使用Radoop验证过程的数据。正在运行的进程失败，出现以下错误:

HiveQL问题消息:Error running query: java.lang.NoClassDefFoundError: scala/collection。可迭代的

你觉得我的问题在哪?

问候,

自从他

ztoth · 2016年12月

亲爱的自从他,

问题可能与Hadoop集群上的Hive类路径有关。让我问一些细节，使问题更容易解决:

你使用的是哪种Hadoop发行版?如果是CDH，您是否将它与Spark上的Hive一起使用?如果是，设置"hive.execution "。将“engine”改为“mr”作为连接中的高级Hive参数，可以立即解决您的问题。也可以在Spark执行时修复Hive，但这可能需要集群端的配置步骤。
您是否对您的Radoop连接执行了完整测试?如果没有，请这样做并共享日志(以防失败)。

问候,

Zsolt

tasbihmr · 2016年12月

嗨Szolt,

我改了"蜂巢。执行"引擎”转换为“mr”，我收到了Rapidminer的回复，“数据处理能力不足”。

对于Radoop连接的完整测试，我在测试号18中收到了一个错误，当它是关于“将作业导入Hive”时。我通过提取logfile完成的测试的完整zip文件，我已经放在附件中了，作为日志可以吗?还是我需要再展示一下日志?

问候,

自从他

ztoth · 2016年12月

嗨,自从他,

日志显示连接中的JobHistoryServer地址字段在“localhost”之后有一个空白字符。您可以用固定值重新运行完整测试吗?

问候,

Zsolt

tasbihmr · 2016年12月

嗨Szolt,

您是完全正确的，我在JobHistory服务器上的“localhost”后面有一个空白。

我纠正了这一点，并重新运行完整的测试，在FullRadoop连接测试的test18中，在“作业导入”中，我仍然有同样的问题。

你可以把新的Log zip文件，它是附件。

为了让你了解Hadoop、Hive和Yarn，我自己安装了Hadoop和Hive，从Apache网站下载了二进制文件，并从一开始就配置了它，所以我没有使用Cloudera，但似乎我配置的一切都不够，有些参数丢失或没有配置。

问候,

自从他

ztoth · 2016年12月

嗨,自从他,

似乎你在连接中设置了一些特殊的设置作为高级Hadoop参数。Radoop自动设置常用的Hadoop属性，因此不需要将fs.default.name定义为高级参数。

您是否在您的集群上使用KMS ?如果您没有配置它，那么相关属性很可能是不需要的，您可以安全地关闭所有与kms相关的设置。

一般来说，我建议禁用连接中的每个高级Hadoop属性，然后重新运行完整测试。

(顺便问一下，您确定NameNode在端口54310上运行吗?这是很不寻常的。)

问候,

Zsolt

快速链接