标签: pyspark
鉴于pyspark中有一个RDD,我想制作一个新的RDD,其中只包含其前n个项目(的一个副本),例如:
n=100 rdd2 = rdd1.limit(n)
除了RDD没有像DataFrame一样的方法limit()。
limit()
请注意,我不想收集结果,结果必须仍然是RDD,因此我不能使用RDD.take()。
RDD.take()
我正在使用pyspark 2.44。
答案 0 :(得分:1)
您可以将RDD转换为DF限制并将其转换回
rdd1.toDF().limit(n).rdd