应用函数中的R访问行索引

时间:2018-03-21 17:39:15

标签: r syntax large-data

我在内存中有一个大数据集,大约有400k行。在处理该数据帧的子集时,我想生成大图像,并基于数据帧中的条目将该图像中的元素设置为等于特定值。我使用for循环非常简单地做到了这一点,毫无疑问是愚蠢的:

library('Matrix')

#saveMe is a subset of the dataframe containing the x-ranges I want 
#in columns 1,2; y-ranges in 3-4, and values in 5. 
saveMe<-structure(list(XMin = c(1, 17, 19, 19, 21, 29, 29, 31, 31, 31, 31, 33, 33, 35, 37, 39, 39, 39, 41, 43), XMax = c(9, 15, 1, 3,1, 17, 37, 5, 13, 25, 35, 17, 43, 23, 47, 25, 25, 33, 21, 29), YMin = c(225, 305, 435, 481, 209, 1591, 157, 115, 1, 691, 79, 47, 893, 1805, 809, 949, 2179, 1733, 339, 739), YMax = c(277,315, 435, 499, 213, 1689, 217, 133, 1, 707, 111, 33, 903,1827, 849, 973, 2225, 1723, 341, 765), Value = c(3, 1, 0,1, 1, 4, 3, 1, 1, 0, 2, 1, 1, 0, 2, 1, 1, 2, 0, 0)), .Names = c("XMin", "XMax", "YMin", "YMax", "Value"),class = c("data.table", "data.frame"), row.names = c(NA, -20L))

#Create sparse matrix to store the result:
xMax <- max(saveMe$XMax) - min(saveMe$XMin)+1
yMax <- max(saveMe$YMax) - min(saveMe$YMin)+1
img<-Matrix(0, nrow = xMax, ncol = yMax, sparse = TRUE)

for (kx in 1:nrow(saveMe)) {
  img[as.numeric(saveMe[kx,1]):as.numeric(saveMe[kx,2]), as.numeric(saveMe[kx,3]):as.numeric(saveMe[kx,4])] <- as.numeric(saveMe[kx,5])
}
nnzero(img)
image(img)

这需要真正很长时间 - 大约五个小时 - 并且是愚蠢的,按行顺序迭代。我知道通常可以使用apply来大大加快速度。所以,我已经尝试过这样做,就像你期望的那样:

img<-Matrix(0, nrow = xMax, ncol = yMax, sparse = TRUE)
apFun <- function(x, imToUse){
  #idea is to then change that to something like...
  imToUse[(x[1]:x[2]), (x[3]:x[4]) ] <- x[5]
}  

apply(as.matrix(saveMe), 1, apFun,imToUse=img);
nnzero(img)
image(img)

但是,无论我尝试img中的结果元素总是为零。我认为这可能是一个变量范围问题。我究竟做错了什么?

顺便说一句,我 想要解决的问题是创建一个整数&#34;稀疏图像&#34;对于此数据,除了由[XMin XMax YMin YMax]限定的矩形中的元素(等于value(即x[5])之外,其中一切都为零。有没有更好的方法呢?

1 个答案:

答案 0 :(得分:1)

你的怀疑是正确的。 试着这样说服自己:

f <- function(x){
    x <- 5
}

x <- 4

f(x)
# Nothing is returned
x 
# [1] 4

y <- f(x)
x
# [1] 4
y
# [1] 5

对于您的功能,由于您未在apply()中分配结果,因此您希望将最后更新的对象添加为返回值。

apFun <- function(x, imToUse){
  #idea is to then change that to something like...
  imToUse[(x[1]:x[2]), (x[3]:x[4]) ] <- x[5]
  imToUse
} 

这类似于

rm(x, y)
f <- function(x){
    x <- 5
    x
}
x <- 4
f(x)
# [1] 5
x
# [1] 4

请注意,您仍然没有更新x。但是你要返回一个值。

编辑: 在审核您的功能目的和致电apply时,我建议您坚持使用原始for循环。调用apply的目的是更新父环境中对象的值。在这种情况下,由于apply的好处是循环包装器的便利性和本地环境的保护,您必须经历一系列扭曲,以摆脱受保护的包装器。

如何加快速度: 将你的for循环改为

for (i in seq_len(nrow(saveMe))){
  img[saveMe[[i,1]]:saveMe[[i,2]], saveMe[[i,3]]:saveMe[[i,4]]] <- saveMe[[i,5]]
}

在哪里节省时间?这里节省的大量时间是使用[[基于索引而不是使用[从数据表中提取单个值。这是数据:

您在400,000行的数据表中查找5个单值,使用行和列整数索引(以便在循环中进行2,000,000次查找)并根据这些值分配数组400,000倍。分配可能很难优化,但查找不是。让我们对数据表中的整数索引查找进行100次试验,并分配该单个值,比较[[[运算符。

DT <- data.table(x = sample(5000))
single <- replicate(100, {
  system.time({
    for (i in seq_len(nrow(DT))){
      z <- DT[i,1]
    }
  })
})  
double <- replicate(100, {
  system.time({
    for (i in seq_len(nrow(DT))){
      z <- DT[[i,1]]
    }
  })
})

rowMeans(single)
# user.self   sys.self    elapsed user.child  sys.child 
#   1.69405    0.03519    1.89836    0.00000    0.00000 
rowMeans(double)
# user.self   sys.self    elapsed user.child  sys.child 
#   0.05047    0.00083    0.05668    0.00000    0.00000 

此处的键值为user.self。根据100次试验,您可以看到使用[[提取值的速度提高了约30倍。