提高Radoop性能

kevin_m · 2017年7月

您好，是否有可能提高spark查询的性能或速度?如果有，怎么做?提前感谢!

phellinger · 2017年7月

你好,

这取决于这里要检查哪些Spark查询。

在讨论细节之前，让我先说明一下，Hadoop (YARN)作业的开销大得令人恼火，这在在小数据集上运行简单的东西时尤其明显。这个开销只是相对当你运行“真正”的东西时，小:在庞大的数据集上运行分布式和/或复杂的作业。这样，与作业运行时相比，开销就不会那么大了。

对于较大的作业，总体性能可能取决于集群资源的分配情况。乐鱼体育安装与Spark资源分配相关的设置可能会对其产生影响。

对于较小的作业，应该减少开销。然而，对于纯Spark操作符——您可以从Spark(星号)图标中识别它们——没有通用的方法来实现这一点。对于基于Hive的操作(查找Hive (bee)图标)，当Hive-on- spark在集群上启用时，开销可以大大降低。下面是集群的资源管理器界面的屏幕截图(默认情况下可以通过web浏览器访问:8088)，您可以通过查看User列来区分两种类型的作业:第一个是Hive-on-Spark作业，第二个是纯Spark作业。截图2017-07-12 at 14.42.55.png

Hive-on-Spark作业的开销可以通过Preferences中的“连接池”设置来降低，尽管在频繁执行操作时，默认的启发式方法应该已经提供了很好的结果。

如果你能更具体地分享你的挑战，请告诉我。

最好的

彼得

编辑:格式

phellinger · 2017年7月

另外，请注意，升级到Spark 2.x可以提高性能。

切换到Spark 2。对于Radoop来说，x非常简单，因为所需的Spark归档文件可以上传到HDFS，并且Radoop已经可以使用它。无需在集群侧安装或升级任何服务。

彼得

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

提高Radoop性能

最好的答案