如何从Spark的summary()中排除百分位数

时间:2019-05-20 15:37:47

标签: python apache-spark pyspark

Spark的summary()函数返回计数,平均值,stddev和25/50/75%百分位数。

是否可以只计算count,mean和stddev?

1 个答案:

答案 0 :(得分:0)

我想您是在谈论数据集的summary()函数。

在这种情况下,这应该起作用:

yourDataset.summary( "count", "min", "stddev" ).show()

基于https://spark.apache.org/docs/2.3.0/api/scala/index.html#org.apache.spark.sql.Dataset