HDInsight:如何在Spark作业中使用更多内核

时间:2018-02-18 17:03:59

标签: azure apache-spark hdinsight

我创建了默认的HDInsight Spark群集 - 2个头节点和4个工作节点。哪个应该有60个核心。

然而,看着正在运行的工作的仪表板,它只给了我15个执行者 - 这是25%的容量。

有什么办法可以调整吗?

1 个答案:

答案 0 :(得分:0)

根据您的Spark群集工作负载,您可以确定非默认Spark配置将导致更优化的Spark作业执行。使用样本工作负载执行基准测试,以验证任何非默认的群集配置。

以下是一些您可以调整的常用参数:

- num-executors 设置适当的执行者数量。

- executor-cores 设置每个执行程序的核心数。通常,您应该具有中型执行程序,因为其他进程会占用一些可用内存。

- executor-memory 设置每个执行程序的内存大小,它控制YARN上的堆大小。你应该为执行开销留下一些内存。

有关详细信息,请参阅Optimize clusters for Spark applications