它们是根据输入文件大小计算spark作业中执行程序数量的任何公式,还是可以启动no。基于数据的hdfs块数的执行程序数。 第二个问题是我们可以在同一个节点中为同一火花作业启动两个执行程序吗?
答案 0 :(得分:0)
实际上,执行程序的数量与您要在工作中使用的文件的数量和大小无关。执行程序的数量与您在每个工作程序中拥有的资源量(如核心和内存)有关。您可以在first link,second link和third link处了解一些经验法则。 但是,作为建议,通常,如果在一个工人上设置一个以上的执行者,它将带来更好的性能。找出原因,看看
工作节点中的两个执行程序之间存在链接。换句话说,作业在群集节点上运行时,不同的工作程序节点之间存在交互。因此,如果一个工作程序节点上可以有多个执行程序,则可以减少此类通信的网络开销。此外,您将拥有更好的资源利用率。如果您正确遵守以上有关执行者数量的链接,并且实现了优化,您将体验到出色的高性能火花任务。