Question

假设我有一个data.table，其中一列包含线性模型：

library(data.table)
set.seed(1014)

dt <- data.table(
  g = c(1, 1, 2, 2, 3, 3, 3),
  x = runif(7),
  y = runif(7)
)

models <- dt[, list(mod = list(lm(y ~ x, data = .SD))), by = g]

现在我想从每个模型中提取r平方值。我可不可以做比这更好吗？

models[, list(rsq = summary(mod[[1]])$r.squared), by = g]

##    g      rsq
## 1: 1 1.000000
## 2: 2 1.000000
## 3: 3 0.004452

理想情况下，我希望能够消除[[1]]而不依赖知道以前的分组变量（我知道我希望每一行都是它自己的团队。）

Answer 1

这只是summary是一个糟糕的小函数，它不是矢量化的。那么如何手动矢量化（这与@ mnel的解决方案大致相同）：

r.squared = Vectorize(function(x) summary(x)$r.squared)

models[, rsq := r.squared(mod)]
models
#   g  mod         rsq
#1: 1 <lm> 1.000000000
#2: 2 <lm> 1.000000000
#3: 3 <lm> 0.004451631

Answer 2

我的第一个想法是使用rapply和classes='lm'，但这不起作用。 sapply然而（令我惊讶的是）

library(data.table)
set.seed(1014)

dt <- data.table(
  g = c(1, 1, 2, 2, 3, 3, 3),
  x = runif(7),
  y = runif(7)
)

models <- dt[, list(mod = list(lm(y ~ x, data = .SD))), by = g]
models[, rsq := sapply(mod, function(x) summary(x)$r.squared)]

models
#     g  mod         rsq
#  1: 1 <lm> 1.000000000
#  2: 2 <lm> 1.000000000
#  3: 3 <lm> 0.004451631

＆＃34;做其他事情＆＃34;因为data.table作为环境的方式，.SD中的模型可能会出现问题。

有关可能发生的情况的示例，请参阅Why is using update on a lm inside a grouped data.table losing its model data?。这是主题虫子#2590。

Answer 3

那会有用吗？

library(data.table)
set.seed(1014)

dt <- data.table(
  g = c(1, 1, 2, 2, 3, 3, 3),
  x = runif(7),
  y = runif(7)
)
models <- dt[, list(rsq = summary(lm(y ~ x))$r.squared), by = g]
#   g         rsq
#1: 1 1.000000000
#2: 2 1.000000000
#3: 3 0.004451631

Answer 4

我知道这个问题已经停用了两年多，但解决方案已经存在，此处不再赘述。

require(purrr)
require(broom)
map_df(models$mod, glance)

在data.table列中使用富对象

4 个答案: