如何获取PySpark中布尔列的平均值?

时间:2019-06-18 18:16:17

标签: python pyspark

我尝试使用.agg(avg("boolean_column")),但收到错误消息:

"function average requires numeric types, not boolean"

如何获得该列的平均值?

1 个答案:

答案 0 :(得分:1)

将列转换为数字类型,然后取平均值:

from pyspark.sql.functions import avg, col
df.groupBy(...).agg(avg(col("boolean_column").cast("double")))