我有一个大型数据集作为一个RDD。我想创建这个RDD的大约100个列的子集,这样我就可以在循环中分别对每个子集运行映射转换。
我的RDD看起来像这样的例子:
(1,2,3,...,1000)
(1,2,3,...,1000)
(1,2,3,...,1000)
我想要一个明智的拆分,例如10个拆分,所以一个子集应该如下所示:
(1,2,3,...,100)
(1,2,3,...,100)
(1,2,3,...,100)
我怎么能在Pyspark做到这一点?
答案 0 :(得分:0)
您可以使用范围和循环:
for i in range(0, 1000, 100):
rdd.map(lambda row: row[i:i + 100]).someOtherOperation(...)