标签: apache-spark pyspark apache-spark-sql
使用Spark数据框API,如何为groupby导出分区的结果编号。我尝试使用简单的玩具示例,但未发现其父数据框的总分区数和spark.default.parallelism。 图像具有不同数据帧的分区数量的输出:基础数据帧具有总共5个分区并且加入200个,因为分组具有6个。 iPython Snapshot