Spark花了很长时间来保存pySpark DataFrame

时间:2017-03-22 15:21:49

标签: apache-spark pyspark spark-dataframe pyspark-sql

我通过比较2个HIVE表并将结果存回HIVE来创建多个DataFrame。但是在保存DataFrame时需要很长时间才能保存。我正在尝试保存多个DataFrame,其中一个DataFrame有300,000条记录,其中包含大约10个变量但其他DataFrame并且不会太大。

我进一步调查了一下,发现每个DataFrame都有200个分区和35,000多个任务来将DataFrame存储回HIVE。

他们是否可以在保存DataFrame时减少任务数量,或者是他们优化此任务的任何其他方式。

任何帮助都将受到高度赞赏。

此致 Neeraj

0 个答案:

没有答案