我已经在循环中进行了一些计算,由于它被困在镶木地板文件的编写中
for i in range(61):
df = df.withColumn('abc'+str(i),when(lit(i+1)>(df[col_3']+3),None).otherwise(df['col_1'] - (df['col'+str(i)] * (1.0 - df['col_2']) + df['col_2'] * df['col'+str(i)])))
在spark UI的这一步中,所有数据都集中在一个大约3 GB的节点上,其余节点的数据以字节为单位。 请帮助优化循环并减少编写时间