Question

我正在寻找一种解决方案来计算具有data.table的组的一些变量的加权和。我希望这个例子足够清楚。

require(data.table)

dt <- data.table(matrix(1:200, nrow = 10))
dt[, gr := c(rep(1,5), rep(2,5))]
dt[, w := 2]

# Error: object 'w' not found
dt[, lapply(.SD, function(x) sum(x * w)),
   .SDcols = paste0("V", 1:4)]

# Error: object 'w' not found
dt[, lapply(.SD * w, sum),
   .SDcols = paste0("V", 1:4)]

# This works with out groups
dt[, lapply(.SD, function(x) sum(x * dt$w)),
   .SDcols = paste0("V", 1:4)]

# It does not work by groups
dt[, lapply(.SD, function(x) sum(x * dt$w)),
   .SDcols = paste0("V", 1:4), keyby = gr]

# The result to be expected
dt[, list(V1 = sum(V1 * w),
          V2 = sum(V2 * w),
          V3 = sum(V3 * w),
          V4 = sum(V4 * w)), keyby = gr]

### from Aruns answer
dt[, lapply(.SD[, paste0("V", 1:4), with = F],
            function(x) sum(x*w)), by=gr]

Answer 1

最后的尝试（复制Roland的回答：））

复制@Roland的优秀答案：

print(dt[, lapply(.SD, function(x, w) sum(x*w), w=w), by=gr][, w := NULL])

仍然不是最有效的:(第二次尝试）

按照@ Roland的评论，对所有列进行操作确实更快，然后只删除不需要的列（只要操作本身不耗时，这就是这种情况）。

dt[, {lapply(.SD, function(x) sum(x*w))}, by=gr][, w := NULL][]

出于某种原因，当我不使用w时，似乎找不到{} ..不知道为什么会这样。

旧（低效）回答：

（如果组太多，则子集可能会很昂贵）

您可以在不使用.SDcols的情况下执行此操作，然后在将其提供给lapply时将其删除，如下所示：

dt[, lapply(.SD[, -1, with=FALSE], function(x) sum(x*w)), by=gr]
#    gr V1  V2  V3  V4
# 1:  1 20 120 220 320
# 2:  2 70 170 270 370

.SDcols使.SD 不 w列。因此，不可能与w相乘，因为它在.SD环境的范围内不存在。

具有data.table的组的变量加权和

1 个答案:

最后的尝试（复制Roland的回答：））

仍然不是最有效的:(第二次尝试）

旧（低效）回答：