需要快速建议。
我在S3中有一个压缩文件(3 GB大小),我正在尝试使用apache spark读取该文件,然后我正在执行聚合操作。
所以当我使用以下配置启动spark作业时
--num-executors 3 --executor-memory 10G --executor-cores 4 --driver-memory 5G
火花作业以3个执行者开始,但只有一个任务正在启动,其他2个执行器是理想的。我尝试过reparation(3)
只是为了坚持启动更多任务的火花,但我仍然看到只有一个任务在运行。在我当前的场景中,数据端在未压缩时为50 G,并且由于只有一个任务正在尝试处理数据,因此我看到内存不足异常。
我尝试过添加StorageLevel,但这并没有解决我的问题。
任何建议都非常感谢。
提前致谢。