用reduceByKey替换groupByKey代码

时间:2017-07-12 09:17:06

标签: apache-spark pyspark

我有以下代码:

dataframe.coalesce(64).rdd.map(lambda row: (row.id, row))\
 .groupByKey().foreach(write_to_redis)

有人可以建议使用aggregateByKey或reduceByKey更好的写作方式吗?

任何提高效率的一般解决方案也是受欢迎的。

0 个答案:

没有答案