R:强制data.table计算所有交互

时间:2013-12-13 12:13:05

标签: r combinations data.table combinatorics interaction

这是data.table:

dat = data.table(var1=rnorm(120), var2=rep(c('a','b','c'),40), var3=rep(c(1,2,3,2,1,2,1,2,2,3,1,2),10))

dat2 = dat[,list(resp = mean(var1)),by=list(var2, var3)]

dat2中,仅存在dat$var2 et dat$var3的现有互动。如何强制dat2包含dat2var2所有9种可能的互动(而不是var3的7行)的结果?如果没有data.table的直接解决方案,解决这个问题的最简单方法是什么?

table(dat$var2, dat$var3)

     1  2  3
  a 20 10 10
  b 20 20  0
  c  0 30 10

当然,对于dat中不存在数据的交互,dat2应该包含NA中的NA。

1 个答案:

答案 0 :(得分:7)

您可以设置key,然后使用CJ中的i进行交叉连接,就像这样......

setkey( dat , var2 , var3 )

# Thanks to @Shadow for pointing out to use unique() in the cross join
dat[ CJ( unique(var2) , unique(var3) ) , mean(var1) ]
#   var2 var3          V1
#1:    a    1 -0.25771923
#2:    a    2  0.04143057
#3:    a    3  0.28878451
#4:    b    1  0.18865887
#5:    b    2  0.53632552
#6:    b    3          NA
#7:    c    1          NA
#8:    c    2  0.38015021
#9:    c    3  0.49809159

作为解释,CJ()data.table i(在这种情况下为x)中创建dat即可加入。它形成为提供给CJ()的向量的叉积,恰好正是您所寻找的!