PySpark Dataframes上的reduceByKey等价物

时间:2016-10-13 20:10:11

标签: apache-spark pyspark spark-dataframe

我正在尝试使用pySpark Dataframe API进行一些涉及聚合的数据分析。我的理解是git branch -f branch-name HEAD git checkout branch-name 操作等同于groupBy() Spark命令。 Dataframe API上是否有一个等同于Spark groupByKey()的命令?我担心的是reduceByKey()似乎会将密钥的所有值都收集到内存中,这在性能方面并不是很好。

感谢。

0 个答案:

没有答案