应用错误收集

优化功能上的Spark Window

时间：2019-05-07 10:51:29

标签： apache-spark pyspark apache-spark-sql databricks

优化此PySpark代码的最佳方法是什么：

w = Window.partitionBy('a').orderBy('b')

data = (data.withColumn('path',F.collect_list('c').over(w))
        .withColumn('timestamps', F.collect_list('b').over(w)))

通常，在Spark中优化Window功能的最佳方法是什么（使用数据分区，存储分区？）

0 个答案:

没有答案