标签: apache-spark
可用的硬件配置 - 16 GB,8核
处理数据所需的执行程序和执行程序内存的数量是多少?
数据格式 - 数据是带有20列的分隔文本格式,需要在其中一列上执行聚合,如平均值。
答案 0 :(得分:1)
更多执行者只能让工作或阶段更快完成。
您的工作将被分解为任务,每个任务都将由执行者运行。如果执行任务多于执行程序,则它们只是排队。如果您只有一个执行程序,那么队列会更长!这应该决定完成的能力。
更好的问题是“我应该给执行者多少记忆”。