我在R中编写了一段代码来计算所谓的排名统计数据的两倍。
我需要重复计算Q最小1000次,但内部有3个循环,只需要很长时间就可以完成一次。
这是我的代码:
#u, a - real numbers
l <- function(u, a) {
-sqrt((1-a)/a)*I(u>=0 & u<a) + sqrt(a/(1-a))*I(u>=a & u<=1)
}
# r,s - real number, R,S - vectors of real numbers (equal lengths)
L<-function(r, s, R, S) {
n<-length(R)
x<-0
for (i in 1:n) {
x<-x+l(R[i]/(n+1),r) * l(S[i]/(n+1),s)
}
1/sqrt(n)*x
}
# r, s, X, Y - vectors of real numbers; X and Y must be equally long
Q<-function(r,s,X,Y) {
n<-length(X)
R<-rank(X)
S<-rank(Y)
q<-0
for (j in 1:length(r)) {
for (k in 1:length(s)) {
q<-q+L(r[j],s[k],R,S)^2
}
}
q
}
我尝试使用sapply和apply转换我的函数,但是第一个函数失败了,因为r和s的大小可能不相等(r,s的长度也不应等于X的长度(或Y) ))。
有没有办法生成一个函数L,它需要4个向量并产生一个矩阵,这样我就可以摆脱循环?
提前致谢!
//编辑:
我使用mapply编写了一个替代函数:
Q1<-function(r,s,X,Y) {
n<-length(X)
R<-rank(X)
S<-rank(Y)
rs <- expand.grid(r,s)
q<-do.call(mapply, c(function(r,s) L(r,s,R=R,S=S)^2, unname(rs)))
sum(q)
}
但似乎更慢。
答案 0 :(得分:1)
如果要为r
和s
的不同值生成L(。)的所有值,则无循环方法可能是:
rs <- expand.grid(r=r,s=s); rm(r); rm(s)
#edit
rs$qrs <- with(rs, L(r, s, R, S)^2 )
q <- sum(rs$qrs)
我不相信这会更快。有一种广泛但错误的观念认为R中的循环是低效的。效率的大部分提升都来自于简化内部功能。
> set.seed(123)
> r <- runif(4)
> s <- runif(3)
> rs <- expand.grid(r=r,s=s)
> rs
r s
1 0.2875775 0.9404673
2 0.7883051 0.9404673
3 0.4089769 0.9404673
4 0.8830174 0.9404673
5 0.2875775 0.0455565
6 0.7883051 0.0455565
7 0.4089769 0.0455565
8 0.8830174 0.0455565
9 0.2875775 0.5281055
10 0.7883051 0.5281055
11 0.4089769 0.5281055
12 0.8830174 0.5281055
> rs$qrs <- with(rs, L(r, s, 1:10, 1:10)^2 )
> q <- sum(rs$qrs)
> q
[1] 14.39009
> rs
r s qrs
1 0.2875775 0.9404673 0.0004767998
2 0.7883051 0.9404673 0.0003911883
3 0.4089769 0.9404673 6.6571168565
4 0.8830174 0.9404673 0.0017673788
5 0.2875775 0.0455565 0.0004767998
6 0.7883051 0.0455565 0.0003911883
7 0.4089769 0.0455565 6.6571168565
8 0.8830174 0.0455565 0.0017673788
9 0.2875775 0.5281055 0.0004767998
10 0.7883051 0.5281055 0.0003911883
11 0.4089769 0.5281055 6.6571168565
12 0.8830174 0.5281055 0.0017673788