如何在sparkr

时间:2016-08-20 15:31:06

标签: function max average min sparkr

我正在使用SparkR。现在我在使用avg,max等统计函数时遇到问题。首先,我读了一个json文件,如:

> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json")  

然后,a是spark中的数据帧而不是正常的R数据帧。我正在尝试https://spark.apache.org/docs/1.5.1/api/R/的一些函数但是当我使用像avg,max,min这样的函数时,我什么也没得到。在RStudio上,它显示如下:

> avg(aa$pipelat)
Column avg(pipelat) 

那么,我怎样才能展示或了解这些功能的价值? 顺便说一下,参数是数据帧工作正常的函数,比如agg。我只是不知道如何处理参数为列的函数。

2 个答案:

答案 0 :(得分:1)

head()仅返回生成的DataFrame的第一行 rdf <- collect(sdf)
将分布式Spark DataFrame转换为可显示的本地R data.frame。

所以,对于你的第二篇文章中的例子: collect(selectExpr(df,"max(laidyear)","min(type)")) ...将返回layyear的所有值的结果,而不仅仅是前6行。

答案 1 :(得分:0)

得到它。以下格式有效。

head(selectExpr(df,"max(laidyear)","min(type)"))