这是data.table:
dat = data.table(var1=rnorm(120), var2=rep(c('a','b','c'),40), var3=rep(c(1,2,3,2,1,2,1,2,2,3,1,2),10))
dat2 = dat[,list(resp = mean(var1)),by=list(var2, var3)]
在dat2
中,仅存在dat$var2
et dat$var3
的现有互动。如何强制dat2
包含dat2
和var2
所有9种可能的互动(而不是var3
的7行)的结果?如果没有data.table的直接解决方案,解决这个问题的最简单方法是什么?
table(dat$var2, dat$var3)
1 2 3
a 20 10 10
b 20 20 0
c 0 30 10
当然,对于dat
中不存在数据的交互,dat2
应该包含NA中的NA。
答案 0 :(得分:7)
您可以设置key
,然后使用CJ
中的i
进行交叉连接,就像这样......
setkey( dat , var2 , var3 )
# Thanks to @Shadow for pointing out to use unique() in the cross join
dat[ CJ( unique(var2) , unique(var3) ) , mean(var1) ]
# var2 var3 V1
#1: a 1 -0.25771923
#2: a 2 0.04143057
#3: a 3 0.28878451
#4: b 1 0.18865887
#5: b 2 0.53632552
#6: b 3 NA
#7: c 1 NA
#8: c 2 0.38015021
#9: c 3 0.49809159
作为解释,CJ()
在data.table
i
(在这种情况下为x
)中创建dat
即可加入。它形成为提供给CJ()
的向量的叉积,恰好正是您所寻找的!