Question

可以有一个Spark DataFrame的分区数组，如下所示：

> df.rdd.partitions

有没有办法获取有关分区的更多信息？特别是，我想看到分区键和分区边界（分区中的第一个和最后一个元素）。

这只是为了更好地理解数据的组织方式。

这就是我的尝试：

> df.partitions.rdd.head

但此对象只有equals hashCode和index的属性和方法。

Answer 1

如果数据不是太大，可以按如下方式将它们写入磁盘：

df.write.option("header", "true").csv("/tmp/foobar")

指定的目录不得存在。