执行过程中的Radoop问题

tasbihmrtasbihmr 成员职位:9贡献我
2018年11月编辑 帮助

亲爱的所有,

我已经成功地连接了Hive、Spark和Hadoop,并设置了Radoop连接。我现在正在使用Radoop Nest处理“泰坦尼克号”数据的一个例子。我已经把泰坦尼克号的数据在Hive,并希望使用Radoop验证过程的数据。正在运行的进程失败,出现以下错误:

HiveQL问题消息:Error running query: java.lang.NoClassDefFoundError: scala/collection。可迭代的

你觉得我的问题在哪?

问候,

自从他

标记:

答案

  • ztothztoth 成员职位:5因素二世

    亲爱的自从他,

    问题可能与Hadoop集群上的Hive类路径有关。让我问一些细节,使问题更容易解决:

    1. 你使用的是哪种Hadoop发行版?如果是CDH,您是否将它与Spark上的Hive一起使用?如果是,设置"hive.execution "。将“engine”改为“mr”作为连接中的高级Hive参数,可以立即解决您的问题。也可以在Spark执行时修复Hive,但这可能需要集群端的配置步骤。
    2. 您是否对您的Radoop连接执行了完整测试?如果没有,请这样做并共享日志(以防失败)。

    问候,

    Zsolt

  • tasbihmrtasbihmr 成员职位:9贡献我

    嗨Szolt,

    我改了"蜂巢。执行"引擎”转换为“mr”,我收到了Rapidminer的回复,“数据处理能力不足”。

    对于Radoop连接的完整测试,我在测试号18中收到了一个错误,当它是关于“将作业导入Hive”时。我通过提取logfile完成的测试的完整zip文件,我已经放在附件中了,作为日志可以吗?还是我需要再展示一下日志?

    问候,

    自从他

  • ztothztoth 成员职位:5因素二世

    嗨,自从他,

    日志显示连接中的JobHistoryServer地址字段在“localhost”之后有一个空白字符。您可以用固定值重新运行完整测试吗?

    问候,

    Zsolt

  • tasbihmrtasbihmr 成员职位:9贡献我

    嗨Szolt,

    您是完全正确的,我在JobHistory服务器上的“localhost”后面有一个空白。

    我纠正了这一点,并重新运行完整的测试,在FullRadoop连接测试的test18中,在“作业导入”中,我仍然有同样的问题。

    你可以把新的Log zip文件,它是附件。

    为了让你了解Hadoop、Hive和Yarn,我自己安装了Hadoop和Hive,从Apache网站下载了二进制文件,并从一开始就配置了它,所以我没有使用Cloudera,但似乎我配置的一切都不够,有些参数丢失或没有配置。

    问候,

    自从他

  • ztothztoth 成员职位:5因素二世

    嗨,自从他,

    似乎你在连接中设置了一些特殊的设置作为高级Hadoop参数。Radoop自动设置常用的Hadoop属性,因此不需要将fs.default.name定义为高级参数。

    您是否在您的集群上使用KMS ?如果您没有配置它,那么相关属性很可能是不需要的,您可以安全地关闭所有与kms相关的设置。

    一般来说,我建议禁用连接中的每个高级Hadoop属性,然后重新运行完整测试。

    (顺便问一下,您确定NameNode在端口54310上运行吗?这是很不寻常的。)

    问候,

    Zsolt

登录注册置评。