我想知道在R中避免行方式处理的最佳方法是什么,大多数行方式都是在内部C例程中完成的。例如:我有一个数据框a
:
chromosome_name start_position end_position strand
1 15 35574797 35575181 1
2 15 35590448 35591641 -1
3 15 35688422 35688645 1
4 13 75402690 75404217 1
5 15 35692892 35693969 1
我想要的是:根据链是正还是负,startOFgene
为start_position
或end_position
。避免for
循环的一种方法是将data.frame与+1 strand和-1 strand分开并执行选择。什么可以加快速度?如果每行具有某些其他复杂处理,则该方法不会按比例放大。
答案 0 :(得分:5)
也许这足够快......
transform(a, startOFgene = ifelse(strand == 1, start_position, end_position))
chromosome_name start_position end_position strand startOFgene
1 15 35574797 35575181 1 35574797
2 15 35590448 35591641 -1 35591641
3 15 35688422 35688645 1 35688422
4 13 75402690 75404217 1 75402690
5 15 35692892 35693969 1 35692892
答案 1 :(得分:3)
首先,由于您的所有列都是整数/数字,因此您可以使用矩阵而不是data.frame。矩阵上的许多操作比data.frame上的相同操作快得多,即使它们在这种情况下没有太大差别。然后,您可以使用逻辑子集来创建startOFgene
列。
# Create some large-ish data
M <- do.call(rbind,replicate(1e3,as.matrix(a),simplify=FALSE))
M <- do.call(rbind,replicate(1e3,M,simplify=FALSE))
A <- as.data.frame(M)
# Create startOFgene column in a matrix
m <- function() {
M <- cbind(M, startOFgene=M[,"start_position"])
negStrand <- sign(M[,"strand"]) < 0
M[negStrand,"startOFgene"] <- M[negStrand,"end_position"]
}
# Create startOFgene column in a data.frame
d <- function() {
A$startOFgene <- A$start_position
negStrand <- sign(A$strand) < 0
A$startOFgene[negStrand] <- A$end_position[negStrand]
}
library(rbenchmark)
benchmark(m(), d(), replications=10)[,1:6]
# test replications elapsed relative user.self sys.self
# 2 d() 10 18.804 1.000 16.501 2.224
# 1 m() 10 19.713 1.048 16.457 3.152