如何配置ParquetFileReader并行性?

时间:2016-05-17 21:14:07

标签: apache-spark-sql parquet pyspark-sql

我试图将分区的spark sql数据帧(大约300个分区)保存到hdfs并且它真的很慢:

  

joined_table.write.mode('覆盖&#39)。partitionBy(目标).save(path_out)

我认为这可能是由以下原因造成的:

  

INFO ParquetFileReader:使用并行性启动操作:5

有关如何配置此并行性的任何想法?此链接可能会有所帮助:https://forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html 但我不知道如何在Pyspark中使用newAPIHadoopFile。

0 个答案:

没有答案