我正在使用sapply
使用以下代码重新编码具有872440行和480列的大型数据表中的字母
x<-1:nrow(testmerge)#row number
y<-2:ncol(testmerge) #column start recode
rm<-future_sapply(x, function(x) testmerge[x,y] <- gsub('B', testmerge[x,1], testmerge[x,y]))
testmerge[x,1]
表示我要用于编码的字母在数据集的第1列中。该字母在每一行中都会更改。
我的问题是,尽管我使用future_sapply
函数并行执行任务,但整个编码过程却要花很长时间
library(future.apply)
plan(multiprocess,workers=6)
library(boot)
options(future.globals.maxSize=4000000000000)
我正在具有30GB RAM的Windows PC上运行
我希望您能提出建议以加快流程。
示例输入:
recode test1 test2 test3
C AB BB AB
T BB AB AA
G AA BB BB
我想要获得的输出:
recode test1 test2 test3
C AC CC AC
T TT AT AA
G AA GG GG