我正在优化我的代码,我遇到了一些问题。我知道R中最大的速度来自矢量化代码而不是使用循环。但是,我在列表中有我的数据,我不确定我是否可以对代码进行矢量化。我尝试使用apply
函数(例如lapply
,vapply
),但我读到这些函数仅用于编写更清晰的代码,实际上是在引擎盖下使用循环!
以下是我的代码中的三个最大瓶颈,但我认为第一部分无法做任何事情。
1)阅读数据
我使用尺寸为277x349的1000个矩阵批量处理。这是我的脚本中最大的瓶颈,但我通过使用doMC
包来利用foreach
函数的多个核心来缓解这个问题。这导致包含1000个277x349矩阵的列表。
出于问题的目的,假设我们有一个1000个矩阵的列表277 x 349
# Fake data
l <- list()
for(i in 1:1000) {
l[[i]] <- matrix(rnorm(277*349), nrow=277, ncol=349)
}
2)瓶颈#1
我需要与一些参考矩阵(相同维度)进行比较。这导致将列表中的1000个矩阵与我的参考矩阵进行比较,得到1000个距离的向量。如果我知道矩阵具有相同的尺寸,我可以将此步骤向量化吗?
以下是一些代码:
# The reference matrix
r <- matrix(rnorm(277*349), nrow=277, ncol=349)
# The number of non NA values in matrix. Do not need to worry about this...
K <- 277*349
# Make a function to calculate distances
distance <- function(xi, xj, K, na.rm=TRUE) {
sqrt(sum((xi - xj)^2, na.rm=na.rm)/K)
}
# Get a vector containing all the distances
d <- vapply(l, distance, c(0), xj=r, K=K)
使用vapply
这个步骤速度非常快,但它是代码中第三个最慢的部分。
3)瓶颈#2
我现在想要将J“最接近”矩阵的加权平均矩阵设为我的参考矩阵。 (有一个排序步骤,但为简单起见假设为d[1] < d[2] < ... < d[1000]
)。我想得到当J = 1,2,...,1000
# Get the weighted matrix
weightedMatrix <- function(listOfData, distances, J) {
# Calculate weights:
w <- d[1:J]^{-2} / sum(d[1:J]^{-2})
# Get the weighted average matrix
# *** I use a loop here ***
x_bar <- matrix(0, nrow=nrow(listOfData[[1]]), ncol=ncol(listOfData[[1]]))
for(i in 1:J) {
x_bar <- x_bar + {listOfData[[i]] * w[i]}
}
return(x_bar)
}
# Oh no! Another loop...
res <- list()
for(i in 1:length(l) ) {
res[[i]] <- weightedMatrix(l, d, J=i)
}
我有点难过。我没有看到在矩阵列表上矢量化操作的直观方法。
我写的剧本会经常被调用,所以即使有一点改进也可以加起来!
修改
RE:1)阅读数据
我忘了提到我的数据是特殊格式的,所以我必须使用特殊的数据读取功能来读取R中的数据。文件格式为netcdf4,我使用的是{来自包nc_open
的{1}}函数来访问文件,然后我必须使用ncdf4
函数来读取感兴趣的变量。好处是文件中的数据可以从磁盘读取,然后我可以用ncvar_get
将数据读入内存,用R对它们进行操作。
话虽这么说,虽然我知道我的矩阵的大小以及我将拥有多少矩阵,但我用一个数据列表问了我的问题,因为ncvar_get
函数使我能够进行并行计算输出来自列表中的并行化循环的结果。我发现使用foreach
函数,数据读取步骤的速度提高了约3倍。
我想我之后可以将数据排列为3d数组,但是分配3d数组所花费的时间可能比节省时间要多?我明天一定要试试。
编辑2:
以下是我对剧本的一些时间安排。
原始剧本:
foreach
到目前为止,我做了以下改进:(1)在读取数据之前预先分配列表,(2)根据Martin Morgan的建议改进加权矩阵计算。
[1] "Reading data to memory"
user system elapsed
176.063 44.070 26.611
[1] "Calculating Distances"
user system elapsed
2.312 0.000 2.308
[1] "Calculating the best 333 weighted matrices"
user system elapsed
63.697 28.495 9.092
一些注意事项:
我在[1] "Reading data to memory"
user system elapsed
192.448 38.578 27.872
[1] "Calculating Distances"
user system elapsed
2.324 0.000 2.326
[1] "Calculating all 1000 weighted matrices"
user system elapsed
1.376 0.000 1.374
循环中使用12个内核来读取数据(foreach
)。在改进之前/之后,整个脚本需要大约40秒/ 36秒才能运行。
我的瓶颈#2的时机已经改善了很多。以前,我只计算加权矩阵的前三分之一(即333),但现在脚本只能在原始时间的一小部分内计算所有加权矩阵。
感谢您的帮助,我稍后会尝试调整我的代码,看看是否可以更改我的脚本以使用3D数组而不是列表。我现在要花一些时间来验证计算,以确保它们有效!
答案 0 :(得分:13)
我的“低悬的果实”(scan
;预分配和填充)似乎不相关,所以......
距离计算中的操作对我来说足够矢量化了。可能你可以通过对所有矩阵进行单一距离计算来挤出一些额外的速度,但这可能会使代码不易理解。
加权矩阵计算看起来还有改进的余地。我们来计算
w <- d^(-2) / cumsum(d^(-2))
对于加权矩阵m
我认为连续矩阵之间的关系只是m' = m * (1 - w[i]) + l[[i]] * w[i]
,所以
res <- vector("list", length(l))
for (i in seq_along(l))
if (i == 1L) {
res[[i]] = l[[i]] * w[[i]]
} else {
res[[i]] = res[[i - 1]] * (1 - w[[i]]) + l[[i]] * w[[i]]
}
这会将res
的计算从二次变为线性。我对优于线性表现的想法只是一种(可能也是误导的)预感;我没有追求那个。
回到预分配和填充以及@ flodel的评论,我们有
f0 <- function(n) {
## good: pre-allocate and fill
l = vector("list", n)
for (i in seq_along(l))
l[[i]] = 1
l
}
f1 <- function(n) {
## bad: copy and append
l = list()
for (i in seq_len(n))
l[[i]] = 1
l
}
产生相同的结果
> identical(f0(100), f1(100))
[1] TRUE
但性能不同
> sapply(10^(1:5), function(i) system.time(f0(i))[3])
elapsed elapsed elapsed elapsed elapsed
0.000 0.000 0.002 0.014 0.134
> sapply(10^(1:5), function(i) system.time(f1(i))[3])
elapsed elapsed elapsed elapsed elapsed
0.000 0.001 0.005 0.253 24.520
尽管这与当前问题的规模无关紧要并不重要,但似乎应采用更好的预分配和填充策略以避免猜测它是否相关。更好的是,使用*apply
或本案例replicate
系列,以避免不得不考虑它
l <- replicate(1000, matrix(rnorm(277*349), nrow=277, ncol=349), simplify=FALSE)