Question

我正在处理一个数据表，该数据表包含数据组和每个位置（从-1000到+1000）以及每个位置的计数。一个小例子就是这样：

dt.ex <- data.table(newID=rep(c("A","B"), each = 6), pos=rep(c(-2:3), 2), count= sample(c(1:100), 12))
    newID pos count
 1:     A  -2    29
 2:     A  -1    32
 3:     A   0    33
 4:     A   1    45
 5:     A   2    51
 6:     A   3    26
 7:     B  -2    22
 8:     B  -1    79
 9:     B   0     2
10:     B   1    48
11:     B   2    87
12:     B   3    38

我想要做的是计算每组newID的每n行之间的平均值（或总和）。也就是说，分成n行并汇总结果。假设n = 3并求和：

输出

newID pos count
    A  -2    94
    A   1   122
    B  -2   103 
    B   1   173

我真的不知道如何在不采用某种循环的情况下开始 - 不建议使用67094000 x 3表。如果我只想计算每个newID，像this这样的东西可以解决问题，但我还没有看到一个接近回答我的问题的解决方案。 Plyr解决方案也很受欢迎，尽管我觉得它可能太慢了。

Answer 1

另一种方式（不使用.SD）将是：

dt.ex[, seq := (seq_len(.N)-1) %/% 3, by=newID][, 
      list(pos = mean(pos), count=sum(count)), list(newID, seq)]

对（相对）更大的数据进行基准测试：

set.seed(45)
get_grps <- function() paste(sample(letters, 5, TRUE), collapse="")
grps <- unique(replicate(1e4, get_grps()))

dt.in <- data.table(newID = sample(grps, 6e6, TRUE), 
                 pos = sample(-1000:1000, 6e6, TRUE), 
                 count = runif(6e6))
setkey(dt.in, newID)

require(microbenchmark)
eddi <- function(dt) {
   dt[, .SD[, list(pos = mean(pos), count = sum(count)), 
          by = seq(0, .N-1) %/% 3], by = newID]
}

arun <- function(dt) {
    dt[, seq := (seq_len(.N)-1) %/% 3, by=newID][, 
      list(pos = mean(pos), count=sum(count)), list(newID, seq)]
}

microbenchmark(o1 <- eddi(copy(dt.in)), o2 <- arun(copy(dt.in)), times=2)


Unit: seconds
                    expr      min       lq   median       uq      max neval
 o1 <- eddi(copy(dt.in)) 25.23282 25.23282 26.16009 27.08736 27.08736     2
 o2 <- arun(copy(dt.in)) 13.59597 13.59597 14.41190 15.22783 15.22783     2

Answer 2

试试这个：

dt.ex[, .SD[, list(pos = mean(pos), count = sum(count)),
              by = seq(0, .N-1) %/% 3],
        by = newID]

请注意，父data.table的{{1}}用于嵌套.N，因为by仅存在.N。

在data.table的已定义行数中操作

2 个答案: