最近我看到一个类似这样的问题(找不到链接)
我想在data.frame上添加一列,以在删除当前观察值的同时计算另一列的方差。
dt = data.table(
id = c(1:13),
v = c(9,5,8,1,25,14,7,87,98,63,32,12,15)
)
因此,使用for()
循环:
res = NULL
for(i in 1:13){
res[i] = var(dt[-i,v])
}
我尝试在data.table中使用带有.I
的负索引来做到这一点,但令我惊讶的是,以下任何一项都没有:
#1
dt[,var := var(dt[,v][-.I])]
#2
dt[,var := var(dt$v[-.I])]
#3
fun = function(x){
v = c(9,5,8,1,25,14,7,87,98,63,32,12,15)
var(v[-x])
}
dt[,var := fun(.I)]
#4
fun = function(x){
var(dt[-x,v])
}
dt[,var := fun(.I)]
所有这些都提供相同的输出:
id v var
1: 1 9 NA
2: 2 5 NA
3: 3 8 NA
4: 4 1 NA
5: 5 25 NA
6: 6 14 NA
7: 7 7 NA
8: 8 87 NA
9: 9 98 NA
10: 10 63 NA
11: 11 32 NA
12: 12 12 NA
13: 13 15 NA
我想念什么?我认为将.I
传递给函数是一个问题,但是是一个虚拟的示例:
fun = function(x,c){
x*c
}
dt[,dummy := fun(.I,2)]
id v var
1: 1 9 2
2: 2 5 4
3: 3 8 6
4: 4 1 8
5: 5 25 10
6: 6 14 12
7: 7 7 14
8: 8 87 16
9: 9 98 18
10: 10 63 20
11: 11 32 22
12: 12 12 24
13: 13 15 26
工作正常。
在这种特定情况下为什么不能使用.I
?
答案 0 :(得分:7)
您可以使用.BY
:
一个
list
,其中by
中每个项目的长度为1,向量为
dt[ , var_v := dt[id != .BY$id, var(v)], by = id]
方差每行计算一次(by = id
)。在每次计算中,使用“内部” id != .BY$id
中的i
排除当前行。
all.equal(dt$var_v, res)
# [1] TRUE
为什么您的代码不起作用?因为...
.I
是一个等于seq_len(nrow(x))
的整数矢量,
...您的-.I
不仅删除了当前观察值,而且还一次删除了'v'中的 all 行。
一个小插图,从您的尝试开始(只是没有分配:=
),并逐步简化了它:
# your attempt
dt[ , var(dt[, v][-.I])]
# [1] NA
# without the `var`, indexing only
dt[ , dt[ , v][-.I]]
# numeric(0)
# an empty vector
# same indexing written in a simpler way
dt[ , v[-.I]]
# numeric(0)
# even more simplified, with a vector of values
# and its corresponding indexes (equivalent to .I)
v <- as.numeric(11:14)
i <- 1:4
v[i]
# [1] 11 12 13 14
x[-i]
# numeric(0)
答案 1 :(得分:2)
这是蛮力思想:
borderLeftStyle