Question

我正在使用SparkR。现在我在使用avg，max等统计函数时遇到问题。首先，我读了一个json文件，如：

> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json")

然后，a是spark中的数据帧而不是正常的R数据帧。我正在尝试https://spark.apache.org/docs/1.5.1/api/R/的一些函数但是当我使用像avg，max，min这样的函数时，我什么也没得到。在RStudio上，它显示如下：

> avg(aa$pipelat)
Column avg(pipelat)

那么，我怎样才能展示或了解这些功能的价值？顺便说一下，参数是数据帧工作正常的函数，比如agg。我只是不知道如何处理参数为列的函数。

Answer 1

head()仅返回生成的DataFrame的第一行 rdf <- collect(sdf)
将分布式Spark DataFrame转换为可显示的本地R data.frame。

所以，对于你的第二篇文章中的例子： collect(selectExpr(df,"max(laidyear)","min(type)")) ...将返回layyear的所有值的结果，而不仅仅是前6行。

Answer 2

得到它。以下格式有效。

head(selectExpr(df,"max(laidyear)","min(type)"))