为什么在分组data.table中使用lm更新丢失其模型数据?

时间:2013-02-26 18:42:26

标签: r data.table lm

好的,这很奇怪。我怀疑这是data.table中的一个错误,但是如果有人能解释为什么会发生这种情况会有用,那么update究竟做了什么?

我在list(list())内使用data.table技巧来存储拟合模型。当您为不同的分组创建lm个对象序列,然后update这些模型时,所有模型的模型数据将成为最后一个分组的模型数据。这似乎是一个参考文献悬挂在应该制作副本的地方,但我找不到哪里,我无法在lmupdate之外重现这一点。

具体示例:

从虹膜数据开始,首先使三种不同的样本大小,然后将lm模型拟合到每个物种,更新这些模型:

set.seed(3)
DT = data.table(iris)
DT = DT[rnorm(150) < 0.9]
fit = DT[, list(list(lm(Sepal.Length ~ Sepal.Width + Petal.Length))),
          by = Species]
fit2 = fit[, list(list(update(V1[[1]], ~.-Sepal.Length))), by = Species]

原始数据表中每个物种的数量不同

DT[,.N, by = Species]
#       Species  N
# 1:     setosa 41
# 2: versicolor 39
# 3:  virginica 42

第一次合适证实了这一点:

fit[, nobs(V1[[1]]), by = Species]
#       Species V1
# 1:     setosa 41
# 2: versicolor 39
# 3:  virginica 42

但更新后的第二个适合所有型号显示42

fit2[, nobs(V1[[1]]), by = Species]
#       Species V1
# 1:     setosa 42
# 2: versicolor 42
# 3:  virginica 42

我们还可以查看包含用于拟合的数据的model属性,并查看所有模型确实使用了最终的组数据。问题是这是怎么发生的?

head(fit$V1[[1]]$model)
#   Sepal.Length Sepal.Width Petal.Length
# 1          5.1         3.5          1.4
# 2          4.9         3.0          1.4
# 3          4.7         3.2          1.3
# 4          4.6         3.1          1.5
# 5          5.0         3.6          1.4
# 6          5.4         3.9          1.7
head(fit$V1[[3]]$model)
#   Sepal.Length Sepal.Width Petal.Length
# 1          6.3         3.3          6.0
# 2          5.8         2.7          5.1
# 3          6.3         2.9          5.6
# 4          7.6         3.0          6.6
# 5          4.9         2.5          4.5
# 6          7.3         2.9          6.3
head(fit2$V1[[1]]$model)
#   Sepal.Length Sepal.Width Petal.Length
# 1          6.3         3.3          6.0
# 2          5.8         2.7          5.1
# 3          6.3         2.9          5.6
# 4          7.6         3.0          6.6
# 5          4.9         2.5          4.5
# 6          7.3         2.9          6.3
head(fit2$V1[[3]]$model)
#   Sepal.Length Sepal.Width Petal.Length
# 1          6.3         3.3          6.0
# 2          5.8         2.7          5.1
# 3          6.3         2.9          5.6
# 4          7.6         3.0          6.6
# 5          4.9         2.5          4.5
# 6          7.3         2.9          6.3

1 个答案:

答案 0 :(得分:4)

这不是答案,但是评论太长了

对于每个结果模型,术语组件的.Environment是相同的

e1 <- attr(fit[['V1']][[1]]$terms, '.Environment')
e2 <- attr(fit[['V1']][[2]]$terms, '.Environment')
e3 <- attr(fit[['V1']][[3]]$terms, '.Environment')
identical(e1,e2)
## TRUE
identical(e2, e3)
## TRUE

data.table似乎正在使用相同的位内存(我的非技术术语) 按组j的每次评估(这是有效的)。但是,当调用update时,它正在使用它来重新构建模型。这将包含最后一组的值。

所以,如果你捏造它,那就可以了

fit = DT[, { xx <-list2env(copy(.SD))

             mymodel <-lm(Sepal.Length ~ Sepal.Width + Petal.Length)
             attr(mymodel$terms, '.Environment') <- xx
             list(list(mymodel))}, by= 'Species']





lfit2 <- fit[, list(list(update(V1[[1]], ~.-Sepal.Width))), by = Species]
lfit2[,lapply(V1,nobs)]
V1 V2 V3
1: 41 39 42
# using your exact diagnostic coding.
lfit2[,nobs(V1[[1]]),by = Species]
      Species V1
1:     setosa 41
2: versicolor 39
3:  virginica 42

不是长期解决方案,但至少是一种解决方法。