标签: python pyspark
根据某些条件,我必须向PySpark数据框添加多个列。长话短说,代码看起来像这个愚蠢的例子:
for col in df.columns: df = df.withColumn('{}_without_otliers'.format(col), F.lit(1))
问题是,当我没有那么多列(例如15或20)时,它的性能很好,但是当我有100列时,火花花了很长时间才能开始工作,而DAG看起来很大。我该如何优化呢?有什么方法可以“强制”执行每10列的操作?