标签: apache-spark apache-spark-sql
我试图在写入磁盘之前限制数据帧的输出。一种选择是使用
df.limit(n)
但是此内置limit会导致昂贵的改组。我还发现了一种轻松的解决方法
limit
df.rdd.zipWithIndex.filter(_._2 < fetchSize).map(_._1)
但是我担心由于额外执行zipWithIndex,filter和map会导致不必要的开销。有没有更好的方法来利用内置的limit而无需重新整理数据?谢谢。
zipWithIndex
filter
map