标签: apache-spark pyspark apache-spark-sql databricks
优化此PySpark代码的最佳方法是什么:
w = Window.partitionBy('a').orderBy('b') data = (data.withColumn('path',F.collect_list('c').over(w)) .withColumn('timestamps', F.collect_list('b').over(w)))
通常,在Spark中优化Window功能的最佳方法是什么(使用数据分区,存储分区?)