如何在Pyspark中以列方式拆分创建RDD的子集?

时间:2017-01-20 18:03:13

标签: apache-spark pyspark

我有一个大型数据集作为一个RDD。我想创建这个RDD的大约100个列的子集,这样我就可以在循环中分别对每个子集运行映射转换。

我的RDD看起来像这样的例子:

(1,2,3,...,1000)
(1,2,3,...,1000)
(1,2,3,...,1000)

我想要一个明智的拆分,例如10个拆分,所以一个子集应该如下所示:

(1,2,3,...,100)
(1,2,3,...,100)
(1,2,3,...,100)

我怎么能在Pyspark做到这一点?

1 个答案:

答案 0 :(得分:0)

您可以使用范围和循环:

for i in range(0, 1000, 100):
    rdd.map(lambda row: row[i:i + 100]).someOtherOperation(...)