提高Radoop性能

kevin_mkevin_m 成员职位:5贡献我
2018年12月编辑 帮助

您好,是否有可能提高spark查询的性能或速度?如果有,怎么做?提前感谢!

标记:

最好的答案

  • phellingerphellinger 员工,成员职位:103RM工程
    解决方案接受

    你好,

    这取决于这里要检查哪些Spark查询。

    在讨论细节之前,让我先说明一下,Hadoop (YARN)作业的开销大得令人恼火,这在在小数据集上运行简单的东西时尤其明显。这个开销只是相对当你运行“真正”的东西时,小:在庞大的数据集上运行分布式和/或复杂的作业。这样,与作业运行时相比,开销就不会那么大了。

    对于较大的作业,总体性能可能取决于集群资源的分配情况。乐鱼体育安装与Spark资源分配相关的设置可能会对其产生影响。

    对于较小的作业,应该减少开销。然而,对于纯Spark操作符——您可以从Spark(星号)图标中识别它们——没有通用的方法来实现这一点。对于基于Hive的操作(查找Hive (bee)图标),当Hive-on- spark在集群上启用时,开销可以大大降低。下面是集群的资源管理器界面的屏幕截图(默认情况下可以通过web浏览器访问:8088),您可以通过查看User列来区分两种类型的作业:第一个是Hive-on-Spark作业,第二个是纯Spark作业。截图2017-07-12 at 14.42.55.png

    Hive-on-Spark作业的开销可以通过Preferences中的“连接池”设置来降低,尽管在频繁执行操作时,默认的启发式方法应该已经提供了很好的结果。

    如果你能更具体地分享你的挑战,请告诉我。

    最好的

    彼得

    编辑:格式

    kevin_m
  • phellingerphellinger 员工,成员职位:103RM工程
    解决方案接受

    另外,请注意,升级到Spark 2.x可以提高性能。

    切换到Spark 2。对于Radoop来说,x非常简单,因为所需的Spark归档文件可以上传到HDFS,并且Radoop已经可以使用它。无需在集群侧安装或升级任何服务。

    彼得

    kevin_m
    登录注册置评。