Pyspark RDD首先收集163排

时间:2015-12-10 23:47:00

标签: python apache-spark pyspark rdd

有没有办法获得rdd的前163行而不转换为df?

我尝试了newrdd = rdd.take(163)之类的内容,但会返回一个列表,rdd.collect()会返回整个rdd。

有办法做到这一点吗?或者,如果没有,有没有办法将列表转换为rdd?

1 个答案:

答案 0 :(得分:9)

效率不高,但您可以zipWithIndexfilter

rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()

在实践中,简单地takeparallelize

更有意义
sc.parallelize(rdd.take(163))