如何在生产群集中为spark作业进行性能调整?

时间:2018-01-30 22:13:33

标签: apache-spark

让我们假设我们有一个火花工作,我们正在进行所有的性能调整,并使其运行开发环境,配置有限(1节点32GB RAM 500GB硬盘)

显然,我们的生产集群将会很高,在开发环境中测量的调整参数如何在生产集群中发挥作用。是否可以直接在生产集群中调整作业? 它是如何实时完成的?

1 个答案:

答案 0 :(得分:1)

无耻插件(作者)尝试Sparklens https://github.com/qubole/sparklens大部分时间,真正的问题不是如果应用程序很慢,而是它会扩展。对于大多数应用程序,答案是有限的。

spark应用程序的结构对其可伸缩性产生了重要的限制。阶段中的任务数量,阶段之间的依赖关系,偏差以及在驱动程序端完成的工作量是主要限制因素。

Sparklens的最佳功能之一是它模拟并告诉您spark应用程序将如何执行不同的执行程序计数。看起来非常适合您的问题。