Spark 1.6:过滤由describe()生成的DataFrames

时间:2016-02-08 14:31:43

标签: apache-spark apache-spark-sql apache-zeppelin

当我在DataFrame上调用describe函数时出现问题:

val statsDF = myDataFrame.describe()

调用describe函数会产生以下输出:

statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string]

我可以通过调用statsDF

来正常显示statsDF.show()
+-------+------------------+
|summary|             count|
+-------+------------------+
|  count|             53173|
|   mean|104.76128862392568|
| stddev|3577.8184333911513|
|    min|                 1|
|    max|            558407|
+-------+------------------+

我现在想要从statsDF获得标准偏差和均值,但是当我尝试通过执行以下操作来收集值时:

val temp = statsDF.where($"summary" === "stddev").collect()

我收到Task not serializable例外。

我打电话时也面临同样的异常:

statsDF.where($"summary" === "stddev").show()

看起来我们无法过滤describe()函数生成的DataFrame?

3 个答案:

答案 0 :(得分:5)

我已经考虑了一个载有一些健康疾病数据的玩具数据集

 
val stddev_tobacco = rawData.describe().rdd.map{ 
    case r : Row => (r.getAs[String]("summary"),r.get(1))
}.filter(_._1 == "stddev").map(_._2).collect

答案 1 :(得分:2)

您可以从数据框中选择:

from pyspark.sql.functions import mean, min, max
df.select([mean('uniform'), min('uniform'), max('uniform')]).show()
+------------------+-------------------+------------------+
|      AVG(uniform)|       MIN(uniform)|      MAX(uniform)|
+------------------+-------------------+------------------+
|0.5215336029384192|0.19657711634539565|0.9970412477032209|
+------------------+-------------------+------------------+

您也可以将其注册为表格并查询表格:

val t = x.describe()
t.registerTempTable("dt")

%sql 
select * from dt

答案 2 :(得分:1)

myDataFrame.describe().filter($"summary"==="stddev").show()

这在Spark 2.3.0上效果很好