标签: apache-spark pyspark
我想将一个火花数据帧写入镶木地板,而不是将其指定为partitionBy,而是指定numPartitions或每个分区的大小。在PySpark中有一种简单的方法吗?
partitionBy
numPartitions
答案 0 :(得分:4)
如果你关心的是分区数,那么该方法与任何其他输出格式完全相同 - 你可以用给定数量的分区重新分区DataFrame,然后使用DataFrameWriter:
DataFrame
DataFrameWriter
df.repartition(n).write.parquet(some_path)