我并不完全了解如何在dplyrXdf中使用group_by,它基本上为R Server上的XDF文件提供与dplyr相同的功能。
这部分是初始设置部分。
> library(devtools)
> install_github("RevolutionAnalytics/dplyrXdf", force = TRUE)
> library(dplyrXdf)
> # Write XDF file onto HDFS
> # myNameNode is an Azure storage blob (e.g. wasb://cntr@storage.blog.core.windows.net)
> hdfsFS <- RxHdfsFileSystem(hostName = myNameNode, port = myPort)
> inputDir <- file.path(myNameNode, "InData")
> outputDir <- file.path(myNameNode, "OutData2")
> rxHadoopMakeDir(outputDir)
> inputDataSource <- RxTextData(file = inputDir, fileSystem = hdfsFS)
> outputDataSource <- RxXdfData(file = outputDir, fileSystem = hdfsFS, createCompositeSet = TRUE)
> rxImport(inData = inputDataSource, outFile = outputDataSource)
这里是我们从XDF文件中读取ID的地方(分布在9个文件的复合集上)
> rxSetFileSystem(hdfsFS)
> ids <- RxXdfData(outputDir, varsToKeep = c("klant_id"
> head(ids)
klant_id
1 1000293
2 1000293
3 1000293
4 1000293
5 1000293
6 1000293
> uniqIds <- group_by(ids, klant_id)
> head(uniqIds)
> klant_id
1 1000293
2 1000293
3 1000293
4 1000293
5 1000293
6 1000293
为什么group_by不工作?仅仅为了记录我在本地环境中尝试了完全相同的代码(即不是通过HDFS),它仍然没有分组。感谢帮助。