有没有办法获得rdd的前163行而不转换为df?
我尝试了newrdd = rdd.take(163)
之类的内容,但会返回一个列表,rdd.collect()
会返回整个rdd。
有办法做到这一点吗?或者,如果没有,有没有办法将列表转换为rdd?
答案 0 :(得分:9)
效率不高,但您可以zipWithIndex
和filter
:
rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()
在实践中,简单地take
和parallelize
:
sc.parallelize(rdd.take(163))