Pyspark如何在运行时分配分配了值的python变量

时间:2019-07-18 06:29:53

标签: apache-spark pyspark

我正在尝试了解spark的一些内部原理,下面是代码段。

max_date=df.select(max('date')).collect()[0][0]
df=df.withColumn('max_date_column',lit(max_date))

由于spark以分布式方式工作,我想了解如何使“ max_date”变量可用于所有执行者?

0 个答案:

没有答案