应用错误收集

用reduceByKey替换groupByKey代码

时间：2017-07-12 09:17:06

标签： apache-spark pyspark

我有以下代码：

dataframe.coalesce(64).rdd.map(lambda row: (row.id, row))\
 .groupByKey().foreach(write_to_redis)

有人可以建议使用aggregateByKey或reduceByKey更好的写作方式吗？

任何提高效率的一般解决方案也是受欢迎的。

0 个答案:

没有答案