这篇文章已经有一个很好的观点(下面的链接),但是,我想知道是否有人知道如何将其扩展到具有(K,[V1,V2])的情况,即相同的键。如何使用aggregateByKey计算每一列值的平均值?
有关更多背景信息,我有如下所示的RDD:
Calculating the averages for each KEY in a Pairwise (K,V) RDD in Spark with Python
(UserId, [FacebookCommentCount, FacebookLikes])
(213234, [ 23, 2])
(456784, [ 14, 5])
(769543, [ 34, 9])
(453256, [ 43, 8])
:
:
: