我有一个列Salary
的数据框。我必须使用Spark SQL和SCALA找出此列的中位数。
Spark版本1.6.0和Scala版本是2.10.5。
我已将Dataframe注册为表格并触发查询。
import org.apache.spark.mllib.random.RandomRDDs
sqlContext.sql("SELECT percentile_approx(salary, 0.5) FROM employee").show()
数据框是从CSV创建的,具有行(标题+数据行)。数据行的数量是奇数。在触发上面的查询时,它给出了十进制值的结果。
数据看起来像这样(来自CSV):
salary; name; job; gender
1000; AA; private; M
2000; BB; public; M
请帮我找到正确的解决方法。 提前谢谢。