应用错误收集

Pyspark如何在运行时分配分配了值的python变量

时间：2019-07-18 06:29:53

标签： apache-spark pyspark

我正在尝试了解spark的一些内部原理，下面是代码段。

max_date=df.select(max('date')).collect()[0][0]
df=df.withColumn('max_date_column',lit(max_date))

由于spark以分布式方式工作，我想了解如何使“ max_date”变量可用于所有执行者？

0 个答案:

没有答案