我有600行和58000的数据集;这是我需要做的:
现在我们有36个数据集。 我的一所大学建议我们可以为超级计算机(大学集群 - Linux)上的所有组合创建36个目录,然后分别处理每个数据,最后将结果组合起来。谁知道怎么做?我附加数据集和简单的R代码可能会让我的问题有点清楚! 预先感谢您的帮助。
MAF<-function(geno){ ## markers are in the rows
geno[(geno!=0) & (geno!=1) & (geno!=-1)] <- NA
geno <- as.matrix(geno)
## calc_Freq for alleles
n0 <- apply(geno==0,1,sum,na.rm=T)
n1 <- apply(geno==1,1,sum,na.rm=T)
n2 <- apply(geno==-1,1,sum,na.rm=T)
n <- n0 + n1 + n2
## calculate allele frequencies
p <- ((2*n0)+n1)/(2*n)
q <- 1 - p
maf <- pmin(p, q)
frq.index <- maf<=.95 & maf>=.05 ## keep minor allele frequency larger than 0.05
geno_maf <- geno[frq.index,]
geno_maf
}