我一直在寻找聚合xdf文件中不同块中存在的值,但我无法让它工作。
您是否有任何代码片段,您在rxDataStep的转换中使用了任何应用函数?
答案 0 :(得分:1)
使用transformFunc应用变换函数。您必须在工作节点上安装需要的软件包。使用transformObjects为transformFunc提供函数。
xformFunction <- function(data) {
require(dplyr)
df <- as.data.frame(data)
df <- dplyr::summarise(dplyr::group_by(df, z))
return(df)
}
rxDataStep(inData = input_xdf, outFile = t_xdf, transformFunc = xformFunction, transformPackages = c("dplyr"), overwrite = TRUE)
聚合将在节点上,因此在使用Spark ComputeContext时将获得重复的z值。