可以有一个Spark DataFrame
的分区数组,如下所示:
> df.rdd.partitions
有没有办法获取有关分区的更多信息?特别是,我想看到分区键和分区边界(分区中的第一个和最后一个元素)。
这只是为了更好地理解数据的组织方式。
这就是我的尝试:
> df.partitions.rdd.head
但此对象只有equals
hashCode
和index
的属性和方法。
答案 0 :(得分:0)
如果数据不是太大,可以按如下方式将它们写入磁盘:
df.write.option("header", "true").csv("/tmp/foobar")
指定的目录不得存在。