优化功能上的Spark Window

时间:2019-05-07 10:51:29

标签: apache-spark pyspark apache-spark-sql databricks

优化此PySpark代码的最佳方法是什么:

w = Window.partitionBy('a').orderBy('b')

data = (data.withColumn('path',F.collect_list('c').over(w))
        .withColumn('timestamps', F.collect_list('b').over(w)))

通常,在Spark中优化Window功能的最佳方法是什么(使用数据分区,存储分区?)

0 个答案:

没有答案