apache-spark - 在Spark中使用median而不是mean作为聚合函数 - Thinbug

在Spark中使用median而不是mean作为聚合函数

时间：2016-11-24 08:50:28

标签： apache-spark pyspark pyspark-sql

假设我有一个包含汽车，品牌和价格的数据框。我想将avg替换为median（或其他百分位数）：

df.groupby('carBrand').agg(F.avg('carPrice').alias('avgPrice'))

但是，似乎没有允许在Spark中计算此功能的聚合函数。

1 个答案:

答案 0 :(得分：1)

您可以尝试使用approxQuantile函数（请参阅http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#module-pyspark.sql.functions）