在Dataframe中查找列的中位数

时间:2017-05-24 06:26:16

标签: scala apache-spark dataframe median

我有一个列Salary的数据框。我必须使用Spark SQL和SCALA找出此列的中位数。 Spark版本1.6.0和Scala版本是2.10.5。

我已将Dataframe注册为表格并触发查询。

import org.apache.spark.mllib.random.RandomRDDs

sqlContext.sql("SELECT percentile_approx(salary, 0.5) FROM employee").show()

数据框是从CSV创建的,具有行(标题+数据行)。数据行的数量是奇数。在触发上面的查询时,它给出了十进制值的结果。

数据看起来像这样(来自CSV):

salary; name;    job;    gender

1000;    AA;    private;  M

2000;    BB;    public;   M

请帮我找到正确的解决方法。 提前谢谢。

0 个答案:

没有答案