describe()函数在行而不是列上

时间:2017-07-03 22:39:54

标签: scala apache-spark spark-dataframe

如上所述: https://databricks.com/blog/2015/06/02/statistical-and-mathematical-functions-with-dataframes-in-spark.html

describe()函数适用于每个数字列,可以对行进行吗?我的DF大小为53 cols和346,143行,因此转置不是一个选项。我该怎么办?

我使用的是Spark 2.11

1 个答案:

答案 0 :(得分:1)

您可以自己制作UDF。您可以为每个数量创建单独的UDF,也可以将所有内容放入1 UDF中,返回复杂的结果:

+---+---+---+---+---+---+---+----+
| x1| x2| x3| x4| x5|min|max|mean|
+---+---+---+---+---+---+---+----+
|1.0|2.0|3.0|4.0|5.0|1.0|5.0| 3.0|
+---+---+---+---+---+---+---+----+

给出:

<div id="div1">Something here</div>
<div id="div2">Empty or something else</div>