应用错误收集

我试图将分区的spark sql数据帧（大约300个分区）保存到hdfs并且它真的很慢：

joined_table.write.mode（＆＃39;覆盖＆＃39）。partitionBy（目标）.save（path_out）

我认为这可能是由以下原因造成的：

INFO ParquetFileReader：使用并行性启动操作：5

有关如何配置此并行性的任何想法？此链接可能会有所帮助：https://forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html 但我不知道如何在Pyspark中使用newAPIHadoopFile。