Spark:按键减少/汇总

时间:2018-09-13 20:16:04

标签: scala apache-spark

我是Spark和Scala的新手,所以我不知道如何调用这种问题(这使得搜索非常困难)。

我具有以下结构的数据:

[(date1, (name1, 1)), (date1, (name1, 1)), (date1, (name2, 1)), (date2, (name3, 1))]

必须以某种方式将其减少/汇总为:

[(date1, [(name1, 2), (name2, 1)]), (date2, [(name3, 1)])]

我知道如何对键值对列表进行reduceByKey的操作,但是这个特殊问题对我来说还是个谜。

谢谢!

0 个答案:

没有答案