dplyrxdf group_by不起作用

时间:2017-02-16 16:03:06

标签: r dplyr

我并不完全了解如何在dplyrXdf中使用group_by,它基本上为R Server上的XDF文件提供与dplyr相同的功能。

这部分是初始设置部分。

> library(devtools)
> install_github("RevolutionAnalytics/dplyrXdf", force = TRUE)
> library(dplyrXdf)

> # Write XDF file onto HDFS
> # myNameNode is an Azure storage blob (e.g. wasb://cntr@storage.blog.core.windows.net)
> hdfsFS <- RxHdfsFileSystem(hostName = myNameNode, port = myPort)
> inputDir <- file.path(myNameNode, "InData")
> outputDir <- file.path(myNameNode, "OutData2")
> rxHadoopMakeDir(outputDir)
> inputDataSource <- RxTextData(file = inputDir, fileSystem = hdfsFS)
> outputDataSource <- RxXdfData(file = outputDir, fileSystem = hdfsFS, createCompositeSet = TRUE)
> rxImport(inData = inputDataSource, outFile = outputDataSource)

这里是我们从XDF文件中读取ID的地方(分布在9个文件的复合集上)

> rxSetFileSystem(hdfsFS)


> ids <- RxXdfData(outputDir, varsToKeep = c("klant_id"
> head(ids)
  klant_id
1  1000293
2  1000293
3  1000293
4  1000293
5  1000293
6  1000293


> uniqIds <- group_by(ids, klant_id)
> head(uniqIds) 
>  klant_id
1  1000293
2  1000293
3  1000293
4  1000293
5  1000293
6  1000293

为什么group_by不工作?仅仅为了记录我在本地环境中尝试了完全相同的代码(即不是通过HDFS),它仍然没有分组。感谢帮助。

0 个答案:

没有答案