reduceByKey不起作用

时间:2017-10-15 17:46:12

标签: hadoop apache-spark pyspark

我的RDD看起来像这样:

[...('marseilles_2', 'SEP', '23'),
 ('marseilles_2', 'OCT', '28'),
 ('marseilles_2', 'NOV', '24'),
 ('marseilles_2', 'DEC', '26'),
 ('nantes', 'JAN', '16'),
 ('nantes', 'FEB', '15'),
 ('nantes', 'MAR', '20'),
 ('nantes', 'APR', '12'),
 ('nantes', 'MAY', '21'),
 ('nantes', 'JUN', '28'),
 ('nantes', 'JUL', '19'),
 ('nantes', 'AUG', '11'),
 ('nantes', 'SEP', '13'),
 ('nantes', 'OCT', '14'),
 ('nantes', 'NOV', '14'),
 ('nantes', 'DEC', '24'),
 ('nice', 'JAN', '16'),
 ('nice', 'FEB', '15'),
 ('nice', 'MAR', '20')...]

我需要计算第三列的平均值。所以我创建了另一个RDD,第一列作为键,第三列作为值,如下所示:

cityAndRevenue = filesRDD.map(lambda kv: (kv[0], kv[2]))

然后我尝试按键对RDD进行分组:

from operator import add
cityAndRevenue.reduceByKey(add)

但是当我收集它时,它不起作用..就像我从未调用过reduceByKey()

有什么想法吗?

0 个答案:

没有答案