Question

我有一个大型数据集作为一个RDD。我想创建这个RDD的大约100个列的子集，这样我就可以在循环中分别对每个子集运行映射转换。

我的RDD看起来像这样的例子：

(1,2,3,...,1000)
(1,2,3,...,1000)
(1,2,3,...,1000)

我想要一个明智的拆分，例如10个拆分，所以一个子集应该如下所示：

(1,2,3,...,100)
(1,2,3,...,100)
(1,2,3,...,100)

我怎么能在Pyspark做到这一点？

Answer 1

您可以使用范围和循环：

for i in range(0, 1000, 100):
    rdd.map(lambda row: row[i:i + 100]).someOtherOperation(...)