合并pySpark RDD中的列表列表

时间:2017-10-04 02:58:50

标签: python apache-spark pyspark

我有要组合成一个列表的元组列表。我已经能够使用lambdas和列表理解来处理数据到我能够使用reduceByKey但不确定如何合并列表的位置。格式......

[[(0, 14), (0, 24)], [(1, 19), (1, 50)], ...]

我希望这样做......

[(0, 14), (0, 24), (1, 19), (1, 50), ...]

让我到达我需要的地方的代码......

test = test.map(lambda x: (x[1], [e * local[x[1]] for e in x[0]]))
test = test.map(lambda x: [(x[0], y) for y in x[1]])

但不确定如何合并列表

2 个答案:

答案 0 :(得分:4)

你可以,

test = test.flatMap(identity)

test = test.flatMap(lambda list: list)

答案 1 :(得分:0)

感谢@mrsrinivas提供提示......

test = test.flatMap(lambda xs:[(x [0],x [1])for x in xs])