标签: apache-spark pyspark spark-dataframe
我正在尝试使用pySpark Dataframe API进行一些涉及聚合的数据分析。我的理解是git branch -f branch-name HEAD git checkout branch-name 操作等同于groupBy() Spark命令。 Dataframe API上是否有一个等同于Spark groupByKey()的命令?我担心的是reduceByKey()似乎会将密钥的所有值都收集到内存中,这在性能方面并不是很好。
git branch -f branch-name HEAD git checkout branch-name
groupBy()
groupByKey()
reduceByKey()
感谢。