应用错误收集

使用Python（具有多个值）计算Spark中成对（K，V）RDD中每个KEY的平均值

时间：2019-02-24 06:16:04

标签： pyspark

这篇文章已经有一个很好的观点（下面的链接），但是，我想知道是否有人知道如何将其扩展到具有（K，[V1，V2]）的情况，即相同的键。如何使用aggregateByKey计算每一列值的平均值？

有关更多背景信息，我有如下所示的RDD：

Calculating the averages for each KEY in a Pairwise (K,V) RDD in Spark with Python

(UserId, [FacebookCommentCount, FacebookLikes]) (213234, [ 23, 2]) (456784, [ 14, 5]) (769543, [ 34, 9]) (453256, [ 43, 8]) : : :

0 个答案:

没有答案