如何使用列的平均值将列添加到DataFrame

时间:2017-01-25 21:40:30

标签: apache-spark dataframe apache-spark-sql

有更好的方法吗?

val mean = df.select(avg("date")).first().getDouble(0)
df.withColumn("mean", lit(mean))

我认为避免召唤行动是值得的......

1 个答案:

答案 0 :(得分:3)

使用broadcast跨产品可以避免其他操作:

import org.apache.spark.sql.functions.broadcast

df.crossJoin(broadcast(df.agg(avg("date"))))

或:

spark.conf.set("spark.sql.crossJoin.enabled", true)

df.join(broadcast(df.agg(avg("date"))))

不应该使用的是窗口函数:

df.withColumn("avg", avg("date").over())