使用plyrmr时在哪里声明库

时间:2015-12-07 13:45:10

标签: r hadoop parallel-processing dplyr

让我们设想一个dplyr代码块,我希望在hadoop上与plyrmr并行化:

library(dplyr)
lol <- mtcars %>% group_by(gear) %>% distinct(cyl)

我应该在哪里声明dplyr库?

选项1:

library(dplyr)
library(plyrmr)

lol <- input(mtcars) %|% group(gear) %|% gapply(function(x){
distinct(cyl)
return(x)
})

选项2:

library(plyrmr)

lol <- input(mtcars) %|% group(gear) %|% gapply(function(x){
library(dplyr)
distinct(cyl)
return(x)
})

我倾向于认为,由于群集中的每个节点或多或少都是独立的,因此最安全的选项是选项2.

感谢您的帮助

0 个答案:

没有答案