无法在Spark集群中启动更多任务

时间:2018-06-23 07:47:33

标签: azure apache-spark azure-storage-blobs

我有一个6节点集群,每个集群有8个核心和32 GB内存。我正在从azure blob存储中读取一个简单的csv文件,并写入配置单元表。

作业运行时,我只会看到启动了一个任务,一个执行程序正在工作,而其他所有执行程序和实例都处于空闲/死状态。

如何增加任务数,以便作业可以更快地运行。 任何帮助表示赞赏

1 个答案:

答案 0 :(得分:1)

我猜想您的csv文件位于一个块中。因此,您的数据仅在一个分区上,并且由于Spark“仅”在每个分区上创建一个任务,因此您只有一个。

在读取数据帧/ rdd后,可以立即调用repartition(X),以增加分区数量。阅读不会更快,但是您所有的变换和文字都将并行化。