我正在使用SparkR。现在我在使用avg,max等统计函数时遇到问题。首先,我读了一个json文件,如:
> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json")
然后,a是spark中的数据帧而不是正常的R数据帧。我正在尝试https://spark.apache.org/docs/1.5.1/api/R/的一些函数但是当我使用像avg,max,min这样的函数时,我什么也没得到。在RStudio上,它显示如下:
> avg(aa$pipelat)
Column avg(pipelat)
那么,我怎样才能展示或了解这些功能的价值? 顺便说一下,参数是数据帧工作正常的函数,比如agg。我只是不知道如何处理参数为列的函数。
答案 0 :(得分:1)
head()
仅返回生成的DataFrame的第一行
rdf <- collect(sdf)
将分布式Spark DataFrame转换为可显示的本地R data.frame。
所以,对于你的第二篇文章中的例子:
collect(selectExpr(df,"max(laidyear)","min(type)"))
...将返回layyear的所有值的结果,而不仅仅是前6行。
答案 1 :(得分:0)
得到它。以下格式有效。
head(selectExpr(df,"max(laidyear)","min(type)"))