Question

我并不完全了解如何在dplyrXdf中使用group_by，它基本上为R Server上的XDF文件提供与dplyr相同的功能。

这部分是初始设置部分。

> library(devtools)
> install_github("RevolutionAnalytics/dplyrXdf", force = TRUE)
> library(dplyrXdf)

> # Write XDF file onto HDFS
> # myNameNode is an Azure storage blob (e.g. wasb://cntr@storage.blog.core.windows.net)
> hdfsFS <- RxHdfsFileSystem(hostName = myNameNode, port = myPort)
> inputDir <- file.path(myNameNode, "InData")
> outputDir <- file.path(myNameNode, "OutData2")
> rxHadoopMakeDir(outputDir)
> inputDataSource <- RxTextData(file = inputDir, fileSystem = hdfsFS)
> outputDataSource <- RxXdfData(file = outputDir, fileSystem = hdfsFS, createCompositeSet = TRUE)
> rxImport(inData = inputDataSource, outFile = outputDataSource)

这里是我们从XDF文件中读取ID的地方（分布在9个文件的复合集上）

> rxSetFileSystem(hdfsFS)


> ids <- RxXdfData(outputDir, varsToKeep = c("klant_id"
> head(ids)
  klant_id
1  1000293
2  1000293
3  1000293
4  1000293
5  1000293
6  1000293


> uniqIds <- group_by(ids, klant_id)
> head(uniqIds) 
>  klant_id
1  1000293
2  1000293
3  1000293
4  1000293
5  1000293
6  1000293

为什么group_by不工作？仅仅为了记录我在本地环境中尝试了完全相同的代码（即不是通过HDFS），它仍然没有分组。感谢帮助。

dplyrxdf group_by不起作用

0 个答案: