Scala Spark的dataframe.limit(n)导致改组

时间:2019-01-31 10:35:51

标签: apache-spark apache-spark-sql

我试图在写入磁盘之前限制数据帧的输出。一种选择是使用

df.limit(n)

但是此内置limit会导致昂贵的改组。我还发现了一种轻松的解决方法

df.rdd.zipWithIndex.filter(_._2 < fetchSize).map(_._1)

但是我担心由于额外执行zipWithIndexfiltermap会导致不必要的开销。有没有更好的方法来利用内置的limit而无需重新整理数据?谢谢。

0 个答案:

没有答案