我创建了默认的HDInsight Spark群集 - 2个头节点和4个工作节点。哪个应该有60个核心。
然而,看着正在运行的工作的仪表板,它只给了我15个执行者 - 这是25%的容量。
有什么办法可以调整吗?
答案 0 :(得分:0)
根据您的Spark群集工作负载,您可以确定非默认Spark配置将导致更优化的Spark作业执行。使用样本工作负载执行基准测试,以验证任何非默认的群集配置。
以下是一些您可以调整的常用参数:
- num-executors 设置适当的执行者数量。
- executor-cores 设置每个执行程序的核心数。通常,您应该具有中型执行程序,因为其他进程会占用一些可用内存。
- executor-memory 设置每个执行程序的内存大小,它控制YARN上的堆大小。你应该为执行开销留下一些内存。
有关详细信息,请参阅Optimize clusters for Spark applications。