我试图将分区的spark sql数据帧(大约300个分区)保存到hdfs并且它真的很慢:
joined_table.write.mode('覆盖&#39)。partitionBy(目标).save(path_out)
我认为这可能是由以下原因造成的:
INFO ParquetFileReader:使用并行性启动操作:5
有关如何配置此并行性的任何想法?此链接可能会有所帮助:https://forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html 但我不知道如何在Pyspark中使用newAPIHadoopFile。