标签: apache-spark
我有输入源文件(压缩.gz),我需要使用Spark处理。每个文件是5 GB(压缩gz),大约有11-12个文件。 但是当我把源作为输入时,spark就会启动一个执行器。我知道这可能是由于文件的不可拆分性质,但即使我使用高RAM盒,例如c3.8xlarge,它仍然不使用更多的执行程序。被分配的执行程序内存为45 GB,执行程序内核为31。