排序和放大的Spark数据帧执行卡住了dropDuplicates操作

时间:2017-05-17 16:50:02

标签: apache-spark pyspark spark-dataframe

我有一个包含14亿行和20列的数据帧。这是我的代码

df = sqlContext.read.parquet('path0')
df = df.sort('col_10')
df = df.dropDuplicates(['col_1', 'col_2', 'col_3', 'col_4', 'col_5'])
df.write.parquet('path1')

对于总共200个任务中的最后一次写入操作,它在更短的时间内完成194个任务(~6分钟),但是要完成剩余的6个任务,需要大约30分钟。

是什么导致火花无法正确并行化任务?

0 个答案:

没有答案