使用Python(具有多个值)计算Spark中成对(K,V)RDD中每个KEY的平均值

时间:2019-02-24 06:16:04

标签: pyspark

这篇文章已经有一个很好的观点(下面的链接),但是,我想知道是否有人知道如何将其扩展到具有(K,[V1,V2])的情况,即相同的键。如何使用aggregateByKey计算每一列值的平均值?

有关更多背景信息,我有如下所示的RDD:

Calculating the averages for each KEY in a Pairwise (K,V) RDD in Spark with Python

(UserId, [FacebookCommentCount, FacebookLikes]) (213234, [ 23, 2]) (456784, [ 14, 5]) (769543, [ 34, 9]) (453256, [ 43, 8]) : : :

0 个答案:

没有答案