考虑
target <- "vs"
value <- 1
library(data.table)
dt <- as.data.table(head(mtcars))
所以我试图将列名和值作为变量传递到j
环境中的data.table
表达式中,这相当于
dt[, vs == 1]
# [1] FALSE FALSE TRUE TRUE FALSE TRUE
如果只有值是变量,那么它可以正常工作
dt[, vs == value]
# [1] FALSE FALSE TRUE TRUE FALSE TRUE
当data.table范围是变量
时,我们也可以在data.table范围内调用该列dt[, target, with = FALSE]
# vs
# 1: 0
# 2: 0
# 3: 1
# 4: 1
# 5: 0
# 6: 1
但我无法想出如何以简单的方式将两者结合起来
注意:我很清楚我可以做到:
dt[[target]] == value
# [1] FALSE FALSE TRUE TRUE FALSE TRUE
但是我需要在数据表范围内,所以我可以通过引用修改其他列,比如
dt[, NEWCOL := sum(vs == 1), by = am]
所以这里是我的尝试,当列名和值都是变量
dt[, target == value, with = FALSE]
# Null data.table (0 rows and 0 cols)
dt[, target == value]
# [1] FALSE
dt[, (target) == value]
# [1] FALSE
dt[, .(target == value)]
# V1
# 1: FALSE
dt[, eval(target) == value]
# [1] FALSE
dt[target %in% value]
## Empty data.table (0 rows) of 11 cols: mpg,cyl,disp,hp,drat,wt...
最终我想出了
dt[, .SD[[target]] == value]
# [1] FALSE FALSE TRUE TRUE FALSE TRUE
但效率非常低,这是一个简单的基准
set.seed(123)
n <- 1e6
dt <- data.table(vs = sample(1L:30L, n, replace = TRUE), am = seq_len(n))
system.time(dt[, NEWCOL := sum(.SD[[target]] == value), by = am])
# user system elapsed
# 13.00 0.02 13.12
system.time(dt[, NEWCOL2 := sum(vs == value), by = am])
# user system elapsed
# 0.82 0.00 0.83
问题:有没有更好的方法可以让我在这里失踪?更具惯用性或效率更高的东西
修改
最初我正在寻找一些惯用的东西,所以我认为使用get
的@GGrothendieck简单解决方案是唯一的,但令人惊讶的是所有@Richard版本都击败了 ins&#t; t 对列名进行任何评估
set.seed(123)
n <- 1e7
dt <- data.table(vs = sample(1L:30L, n, replace = TRUE), am = seq_len(n))
cl <- substitute(
x == y,
list(x = as.name(target), y = value)
)
cl2 <- call("==", as.name(target), value)
system.time(dt[, NEWCOL := sum(vs == value), by = am])
# user system elapsed
# 0.83 0.00 0.82
system.time(dt[, NEWCOL1 := sum(.SD[[target]] == value), by = am])
# user system elapsed
# 8.97 0.00 8.97
system.time(dt[, NEWCOL2 := sum(get(target) == value), by = am])
# user system elapsed
# 2.35 0.00 2.37
system.time(dt[, NEWCOL3 := sum(eval(cl)), by = am])
# user system elapsed
# 0.69 0.02 0.71
system.time(dt[, NEWCOL4 := sum(eval(cl2)), by = am])
# user system elapsed
# 0.76 0.00 0.77
system.time(dt[, NEWCOL5 := sum(eval(as.name(target)) == value), by = am])
# user system elapsed
# 0.78 0.00 0.78
答案 0 :(得分:9)
这是一种可能的替代方案。
target <- "vs"
value <- 1
dt <- as.data.table(head(mtcars))
就代码而言,它不一定更简单,但我们可以设置在cl
范围之外定义的未评估的调用dt
,该调用将在数据表中进行评估&#39 ;环境。
cl <- substitute(
x == y,
list(x = as.name(target), y = value)
)
对于较长的表达式,可能需要 substitute()
。但在这种情况下,call()
会缩短代码并创建相同的cl
结果。所以cl
也可能是
cl <- call("==", as.name(target), value)
现在我们可以评估cl
内的dt
。在你的例子中,这似乎工作正常。
dt[, NEWCOL := sum(eval(cl)), by = am][]
# mpg cyl disp hp drat wt qsec vs am gear carb NEWCOL
# 1: 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 1
# 2: 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 1
# 3: 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 1
# 4: 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 2
# 5: 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 2
# 6: 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 2
在考虑了这一分钟后,我不确定value
是否需要替换,因此以下内容也有效。但正如大卫所说,第一种方法更有时间效率。
dt[, eval(as.name(target)) == value]
# [1] FALSE FALSE TRUE TRUE FALSE TRUE