如何将数据聚合工作分发给多个spark执行器

时间:2018-06-12 19:10:22

标签: apache-spark amazon-s3 pyspark

需要快速建议。

我在S3中有一个压缩文件(3 GB大小),我正在尝试使用apache spark读取该文件,然后我正在执行聚合操作。

所以当我使用以下配置启动spark作业时

--num-executors 3 --executor-memory 10G --executor-cores 4 --driver-memory 5G

火花作业以3个执行者开始,但只有一个任务正在启动,其他2个执行器是理想的。我尝试过reparation(3)

只是为了坚持启动更多任务的火花,但我仍然看到只有一个任务在运行。在我当前的场景中,数据端在未压缩时为50 G,并且由于只有一个任务正在尝试处理数据,因此我看到内存不足异常。

我尝试过添加StorageLevel,但这并没有解决我的问题。

任何建议都非常感谢。

提前致谢。

0 个答案:

没有答案