处理80 GB文件需要多少执行程序?

时间:2018-01-30 19:15:43

标签: apache-spark

可用的硬件配置 - 16 GB,8核

处理数据所需的执行程序和执行程序内存的数量是多少?

数据格式 - 数据是带有20列的分隔文本格式,需要在其中一列上执行聚合,如平均值。

1 个答案:

答案 0 :(得分:1)

更多执行者只能让工作或阶段更快完成。

您的工作将被分解为任务,每个任务都将由执行者运行。如果执行任务多于执行程序,则它们只是排队。如果您只有一个执行程序,那么队列会更长!这应该决定完成的能力。

更好的问题是“我应该给执行者多少记忆”。