使用Pyspark在Spark RDD中添加元组值的各个列

时间:2019-04-12 16:55:32

标签: apache-spark pyspark

RDD如下所示:

[(u'1400-1459', (u'3.00', u'19.00')), (u'1200-1259', (u'3.00', u'9.00')), (u'1200-1259', (u'3.00', u'12.00')), (u'1100-1159', (u'3.00', u'14.00')), (u'1400-1459', (u'3.00', u'9.00'))]

我想为每个键从值中添加各个列,以使输出看起来像:

[(u'1400-1459', (u'6.00', u'28.00')), (u'1200-1259', (u'6.00', u'21.00')), (u'1100-1159', (u'3.00', u'14.00'))]

尝试以下命令,但它会永远挂起

output =  joinedData.reduceByKey(lamdba x,y : (x[0] + y[0], x[1] + y[1]))

感谢您的时间和帮助。

0 个答案:

没有答案