multidplyr:为集群分配函数

时间:2017-10-03 21:27:18

标签: r parallel-processing dplyr multidplyr

(参见下面的工作解决方案)

我想使用multidplyr来并行化函数:

calculs.R
f <- function(x){
return(x+1)
}

main.R
library(dplyr)
library(multidplyr)
source("calculs.R")
d <- data.frame(a=1:1000,b=sample(1:2,1000),replace=T)

result <- d %>% 
   partition(b) %>% 
     do(f(.)) %>%
     collect()  
然后我得到:

Initialising 3 core cluster.
Error in checkForRemoteErrors(lapply(cl, recvResult)) : 
  2 nodes produced errors; first error: could not find function "f"
In addition: Warning message:
group_indices_.grouped_df ignores extra arguments 

如何为每个核心分配源代码功能?

==================

这是完美无瑕的剧本:

必须提取要更新的值,并将结果转换为数据框

calcul.R
f <- function(x){
    return(data.frame(x$a+1))
    }

必须设置群集并分配源函数

main.R
 library(dplyr)
library(multidplyr)
source("calculs.R")

cl <- create_cluster(3)
set_default_cluster(cl)
cluster_copy(cl, f)

d <- data.frame(a=1:10,b=c(rep(1,5),rep(2,5)))

  result <- d %>%
   partition(b) %>%
     do(f(.)) %>%
     collect()

1 个答案:

答案 0 :(得分:3)

看起来你初始化了一个集群(虽然你没有展示这个部分)。您需要将全局环境中的变量/函数导出到每个worker。假设您将群集设为

cl <- create_cluster(3)
set_default_cluster(cl)

你能试试吗

cluster_copy(cl, f)    

这会将f复制并导出到每个工作人员(我认为......)

附加

您可能遇到另一个问题,即您的函数接受x作为参数,您添加1

f <- function(x){
         return(x+1)
}

由于您要将数据框传递给f,因此您要求data.frame+1,这是没有意义的。您可能希望将功能更改为

f <- function(x){
         return(x$a+1)
}