Question

鉴于pyspark中有一个RDD，我想制作一个新的RDD，其中只包含其前n个项目（的一个副本），例如：

n=100 rdd2 = rdd1.limit(n)

除了RDD没有像DataFrame一样的方法limit()。

请注意，我不想收集结果，结果必须仍然是RDD，因此我不能使用RDD.take()。

我正在使用pyspark 2.44。

Answer 1

您可以将RDD转换为DF限制并将其转换回

rdd1.toDF().limit(n).rdd