Spark只为大gz文件运行一个执行程序

时间:2017-11-28 10:08:46

标签: apache-spark

我有输入源文件(压缩.gz),我需要使用Spark处理。每个文件是5 GB(压缩gz),大约有11-12个文件。 但是当我把源作为输入时,spark就会启动一个执行器。我知道这可能是由于文件的不可拆分性质,但即使我使用高RAM盒,例如c3.8xlarge,它仍然不使用更多的执行程序。被分配的执行程序内存为45 GB,执行程序内核为31。

0 个答案:

没有答案