最好的答案
-
phellinger 员工,成员职位:103RM工程
你好,
这取决于这里要检查哪些Spark查询。
在讨论细节之前,让我先说明一下,Hadoop (YARN)作业的开销大得令人恼火,这在在小数据集上运行简单的东西时尤其明显。这个开销只是相对当你运行“真正”的东西时,小:在庞大的数据集上运行分布式和/或复杂的作业。这样,与作业运行时相比,开销就不会那么大了。
对于较大的作业,总体性能可能取决于集群资源的分配情况。乐鱼体育安装与Spark资源分配相关的设置可能会对其产生影响。
对于较小的作业,应该减少开销。然而,对于纯Spark操作符——您可以从Spark(星号)图标中识别它们——没有通用的方法来实现这一点。对于基于Hive的操作(查找Hive (bee)图标),当Hive-on- spark在集群上启用时,开销可以大大降低。下面是集群的资源管理器界面的屏幕截图(默认情况下可以通过web浏览器访问
:8088),您可以通过查看User列来区分两种类型的作业:第一个是Hive-on-Spark作业,第二个是纯Spark作业。 Hive-on-Spark作业的开销可以通过Preferences中的“连接池”设置来降低,尽管在频繁执行操作时,默认的启发式方法应该已经提供了很好的结果。
如果你能更具体地分享你的挑战,请告诉我。
最好的
彼得
编辑:格式
1 -
phellinger 员工,成员职位:103RM工程