如何从Spark中另一个RDD的前n个项目制作RDD?

时间:2019-10-13 10:38:15

标签: pyspark

鉴于pyspark中有一个RDD,我想制作一个新的RDD,其中只包含其前n个项目(的一个副本),例如:

n=100 rdd2 = rdd1.limit(n)

除了RDD没有像DataFrame一样的方法limit()

请注意,我不想收集结果,结果必须仍然是RDD,因此我不能使用RDD.take()

我正在使用pyspark 2.44。

1 个答案:

答案 0 :(得分:1)

您可以将RDD转换为DF限制并将其转换回

rdd1.toDF().limit(n).rdd
相关问题