我有一个6节点集群,每个集群有8个核心和32 GB内存。我正在从azure blob存储中读取一个简单的csv文件,并写入配置单元表。
作业运行时,我只会看到启动了一个任务,一个执行程序正在工作,而其他所有执行程序和实例都处于空闲/死状态。
如何增加任务数,以便作业可以更快地运行。 任何帮助表示赞赏
答案 0 :(得分:1)
我猜想您的csv文件位于一个块中。因此,您的数据仅在一个分区上,并且由于Spark“仅”在每个分区上创建一个任务,因此您只有一个。
在读取数据帧/ rdd后,可以立即调用repartition(X)
,以增加分区数量。阅读不会更快,但是您所有的变换和文字都将并行化。