Question

有没有办法获得rdd的前163行而不转换为df？

我尝试了newrdd = rdd.take(163)之类的内容，但会返回一个列表，rdd.collect()会返回整个rdd。

有办法做到这一点吗？或者，如果没有，有没有办法将列表转换为rdd？

Answer 1

效率不高，但您可以zipWithIndex和filter：

rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()

在实践中，简单地take和parallelize：

更有意义

sc.parallelize(rdd.take(163))