FlatMap值及其列索引

时间:2015-04-10 18:02:05

标签: apache-spark pyspark

假设我有一个

的数据集
0,11,2,3,4,5,56,7
0,1,21,13,45,5,61,75
01,1,2,3,54,55,6,75

我要做的是将值平面映射到作为列索引的键,值作为值。谁能给我指导?我发现很难获得列索引。

2 个答案:

答案 0 :(得分:2)

假设您的RDD是序列类型,您可以这样做:

rdd.flatMap(line => line.zipWithIndex.map(tuple => tuple.swap))

答案 1 :(得分:1)

创建键值对,其中键是list-index,值是该索引处的值,如下所示:

rdd.flatMap(lambda x: enumerate(x))

这当然是假设您的数据已经是RDD。