在Cloudera上任何支持的Spark版本上,Spark作业都无法成功

Pavithra_RaoPavithra_Rao 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,会员职位:123RM数据科学家
2018年12月编辑 知识库

症状

运行Full-Test从RapidMiner平台连接到Cloudera集群时出现错误信息。

"任何支持的Spark版本都无法成功执行Spark作业。似乎指定的组装jar或其位置不正确:local:// opt/cloudera/ packages /CDH/lib/spark/lib/spark-assembly.jar

诊断

  • 已验证spark-assembly.jar位于所有节点上。
  • 确保在Radoop Manage Connections窗口的配置属性中选择的Spark版本与Hadoop集群的Spark版本之间没有版本不匹配

解决方案

Cloudera的最新Spark构建(随CDH 5.11和5.12一起发布)与相应的Apache Spark版本有些不同(它们不接受)executor-coresexecutor-memory选项)。

使用Apache Spark版本完全没问题,可以使用以下命令或类似命令安装在HDFS上:

如果集群上使用Kerberos,执行kinit调用
wget -O /tmp/spark-1.6.3-bin-hadoop2.6.tgzhttps://d3kbcqa49mib13.cloudfront.net/spark-1.6.3-bin-hadoop2.6.tgz
Tar XZVF /tmp/spark-1.6.3-bin-hadoop2.6。tgz -C /tmp/
Hadoop fs -mkdir -p /tmp/spark
Hadoop fs -put /tmp/spark-1.6.3-bin-hadoop2.6/lib/spark-assembly-1.6.3-hadoop2.6.0.jar /tmp/spark/

在这种情况下,在Radoop连接中指定的程序集位置应该是:

“hdfs: / / / tmp /火花/ spark-assembly-1.6.3-hadoop2.6.0.jar”

标记:
    登录注册置评。