假设我有一个包含汽车,品牌和价格的数据框。我想将avg
替换为median
(或其他百分位数):
df.groupby('carBrand').agg(F.avg('carPrice').alias('avgPrice'))
但是,似乎没有允许在Spark中计算此功能的聚合函数。
答案 0 :(得分:1)
您可以尝试使用approxQuantile函数(请参阅http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#module-pyspark.sql.functions)