我在内存中有一个大数据集,大约有400k行。在处理该数据帧的子集时,我想生成大图像,并基于数据帧中的条目将该图像中的元素设置为等于特定值。我使用for
循环非常简单地做到了这一点,毫无疑问是愚蠢的:
library('Matrix')
#saveMe is a subset of the dataframe containing the x-ranges I want
#in columns 1,2; y-ranges in 3-4, and values in 5.
saveMe<-structure(list(XMin = c(1, 17, 19, 19, 21, 29, 29, 31, 31, 31, 31, 33, 33, 35, 37, 39, 39, 39, 41, 43), XMax = c(9, 15, 1, 3,1, 17, 37, 5, 13, 25, 35, 17, 43, 23, 47, 25, 25, 33, 21, 29), YMin = c(225, 305, 435, 481, 209, 1591, 157, 115, 1, 691, 79, 47, 893, 1805, 809, 949, 2179, 1733, 339, 739), YMax = c(277,315, 435, 499, 213, 1689, 217, 133, 1, 707, 111, 33, 903,1827, 849, 973, 2225, 1723, 341, 765), Value = c(3, 1, 0,1, 1, 4, 3, 1, 1, 0, 2, 1, 1, 0, 2, 1, 1, 2, 0, 0)), .Names = c("XMin", "XMax", "YMin", "YMax", "Value"),class = c("data.table", "data.frame"), row.names = c(NA, -20L))
#Create sparse matrix to store the result:
xMax <- max(saveMe$XMax) - min(saveMe$XMin)+1
yMax <- max(saveMe$YMax) - min(saveMe$YMin)+1
img<-Matrix(0, nrow = xMax, ncol = yMax, sparse = TRUE)
for (kx in 1:nrow(saveMe)) {
img[as.numeric(saveMe[kx,1]):as.numeric(saveMe[kx,2]), as.numeric(saveMe[kx,3]):as.numeric(saveMe[kx,4])] <- as.numeric(saveMe[kx,5])
}
nnzero(img)
image(img)
这需要真正很长时间 - 大约五个小时 - 并且是愚蠢的,按行顺序迭代。我知道通常可以使用apply来大大加快速度。所以,我已经尝试过这样做,就像你期望的那样:
img<-Matrix(0, nrow = xMax, ncol = yMax, sparse = TRUE)
apFun <- function(x, imToUse){
#idea is to then change that to something like...
imToUse[(x[1]:x[2]), (x[3]:x[4]) ] <- x[5]
}
apply(as.matrix(saveMe), 1, apFun,imToUse=img);
nnzero(img)
image(img)
但是,无论我尝试img
中的结果元素总是为零。我认为这可能是一个变量范围问题。我究竟做错了什么?
顺便说一句,我 想要解决的问题是创建一个整数&#34;稀疏图像&#34;对于此数据,除了由[XMin XMax YMin YMax]
限定的矩形中的元素(等于value
(即x[5]
)之外,其中一切都为零。有没有更好的方法呢?
答案 0 :(得分:1)
你的怀疑是正确的。 试着这样说服自己:
f <- function(x){
x <- 5
}
x <- 4
f(x)
# Nothing is returned
x
# [1] 4
y <- f(x)
x
# [1] 4
y
# [1] 5
对于您的功能,由于您未在apply()
中分配结果,因此您希望将最后更新的对象添加为返回值。
apFun <- function(x, imToUse){
#idea is to then change that to something like...
imToUse[(x[1]:x[2]), (x[3]:x[4]) ] <- x[5]
imToUse
}
这类似于
rm(x, y)
f <- function(x){
x <- 5
x
}
x <- 4
f(x)
# [1] 5
x
# [1] 4
请注意,您仍然没有更新x。但是你要返回一个值。
编辑:
在审核您的功能目的和致电apply
时,我建议您坚持使用原始for循环。调用apply
的目的是更新父环境中对象的值。在这种情况下,由于apply
的好处是循环包装器的便利性和本地环境的保护,您必须经历一系列扭曲,以摆脱受保护的包装器。
如何加快速度: 将你的for循环改为
for (i in seq_len(nrow(saveMe))){
img[saveMe[[i,1]]:saveMe[[i,2]], saveMe[[i,3]]:saveMe[[i,4]]] <- saveMe[[i,5]]
}
在哪里节省时间?这里节省的大量时间是使用[[
基于索引而不是使用[
从数据表中提取单个值。这是数据:
您在400,000行的数据表中查找5个单值,使用行和列整数索引(以便在循环中进行2,000,000次查找)并根据这些值分配数组400,000倍。分配可能很难优化,但查找不是。让我们对数据表中的整数索引查找进行100次试验,并分配该单个值,比较[
和[[
运算符。
DT <- data.table(x = sample(5000))
single <- replicate(100, {
system.time({
for (i in seq_len(nrow(DT))){
z <- DT[i,1]
}
})
})
double <- replicate(100, {
system.time({
for (i in seq_len(nrow(DT))){
z <- DT[[i,1]]
}
})
})
rowMeans(single)
# user.self sys.self elapsed user.child sys.child
# 1.69405 0.03519 1.89836 0.00000 0.00000
rowMeans(double)
# user.self sys.self elapsed user.child sys.child
# 0.05047 0.00083 0.05668 0.00000 0.00000
此处的键值为user.self
。根据100次试验,您可以看到使用[[
提取值的速度提高了约30倍。