应用错误收集

Scala Spark的dataframe.limit（n）导致改组

时间：2019-01-31 10:35:51

标签： apache-spark apache-spark-sql

我试图在写入磁盘之前限制数据帧的输出。一种选择是使用

df.limit(n)

但是此内置limit会导致昂贵的改组。我还发现了一种轻松的解决方法

df.rdd.zipWithIndex.filter(_._2 < fetchSize).map(_._1)

但是我担心由于额外执行zipWithIndex，filter和map会导致不必要的开销。有没有更好的方法来利用内置的limit而无需重新整理数据？谢谢。

0 个答案:

没有答案