我有一个包含14亿行和20列的数据帧。这是我的代码
df = sqlContext.read.parquet('path0')
df = df.sort('col_10')
df = df.dropDuplicates(['col_1', 'col_2', 'col_3', 'col_4', 'col_5'])
df.write.parquet('path1')
对于总共200个任务中的最后一次写入操作,它在更短的时间内完成194个任务(~6分钟),但是要完成剩余的6个任务,需要大约30分钟。
是什么导致火花无法正确并行化任务?