在火花数据帧上计算百分位数的等效于“ percentile_approx”

时间:2019-04-25 23:28:01

标签: scala apache-spark dataframe

我想基于分组的值计算数据框上的百分位数。

在新的spark版本(2.1)中,我能够成功执行

dataframe.groupBy($"Col1")
    .agg(callUDF("percentile_approx", $"Col2", lit(0.10)).as("percentile"))

但是这在旧版本中失败了,因为在旧版Spark版本中不支持percentile_approx。由于某种原因,我想在较旧的spark版本中实现此目的。如代码中所述,要实现较旧版本计算百分位数的替代方法是什么。

0 个答案:

没有答案