标签: apache-spark pyspark
我正在尝试了解spark的一些内部原理,下面是代码段。
max_date=df.select(max('date')).collect()[0][0] df=df.withColumn('max_date_column',lit(max_date))
由于spark以分布式方式工作,我想了解如何使“ max_date”变量可用于所有执行者?