有更好的方法吗?
val mean = df.select(avg("date")).first().getDouble(0)
df.withColumn("mean", lit(mean))
我认为避免召唤行动是值得的......
答案 0 :(得分:3)
使用broadcast
跨产品可以避免其他操作:
import org.apache.spark.sql.functions.broadcast
df.crossJoin(broadcast(df.agg(avg("date"))))
或:
spark.conf.set("spark.sql.crossJoin.enabled", true)
df.join(broadcast(df.agg(avg("date"))))
不应该使用的是窗口函数:
df.withColumn("avg", avg("date").over())