标签: apache-spark pyspark
我有以下代码:
dataframe.coalesce(64).rdd.map(lambda row: (row.id, row))\ .groupByKey().foreach(write_to_redis)
有人可以建议使用aggregateByKey或reduceByKey更好的写作方式吗?
任何提高效率的一般解决方案也是受欢迎的。