应用错误收集

无法在Spark集群中启动更多任务

时间：2018-06-23 07:47:33

标签： azure apache-spark azure-storage-blobs

我有一个6节点集群，每个集群有8个核心和32 GB内存。我正在从azure blob存储中读取一个简单的csv文件，并写入配置单元表。

作业运行时，我只会看到启动了一个任务，一个执行程序正在工作，而其他所有执行程序和实例都处于空闲/死状态。

如何增加任务数，以便作业可以更快地运行。任何帮助表示赞赏

1 个答案:

答案 0 :(得分：1)

我猜想您的csv文件位于一个块中。因此，您的数据仅在一个分区上，并且由于Spark“仅”在每个分区上创建一个任务，因此您只有一个。

在读取数据帧/ rdd后，可以立即调用repartition(X)，以增加分区数量。阅读不会更快，但是您所有的变换和文字都将并行化。