在lm_robust()之后出现聚类标准错误后,如何获得边际效应?

时间:2018-07-10 08:28:45

标签: r cluster-analysis lm standard-error

我正在按年份对包含标准误差的聚类进行回归分析。使用Stata可以很容易地做到这一点,但是我必须使用R来实现,因此我使用lm_robust()包中的estimatr函数来运行它。问题是我现在必须获得某些变量的边际效应,但是我做不到,我想这是因为群集标准错误。我遵循了lm_robust()手册上的内容,并且看到他们仅将margins包中的margins命令用于其他功能,而没有聚集的标准错误...是否有人知道如何获取和绘制图形边际效应?

set.seed(42)
library(fabricatr)
library(randomizr)
dat <- fabricate(
  N = 100,                        # sample size
  x = runif(N, 0, 1),             # pre-treatment covariate
  y0 = rnorm(N, mean = x),        # control potential outcome
  y1 = y0 + 0.35,                 # treatment potential outcome
  z = complete_ra(N),             # complete random assignment to treatment
  y = ifelse(z, y1, y0),          # observed outcome

  # We will also consider clustered data
  clust = sample(rep(letters[1:20], each = 5)),
  z_clust = cluster_ra(clust),
  y_clust = ifelse(z_clust, y1, y0)
)

然后,当我使用lm_robust()函数运行回归时:

library(estimatr)
lmout_cl <- lm_robust(
  y_clust ~ z_clust + x,
  data = dat,
  clusters = clust
)

最后,我尝试获得利润...

library(margins)
mar_cl <- margins(lmout_cl)

但这会导致错误:

Error in attributes(.Data) <- c(attributes(.Data), attrib) :'names' attribute 
[1] must be the same length as the vector [0]

2 个答案:

答案 0 :(得分:4)

此错误的歉意,阻止margins()lm_robust()版本0.10及更低版本中使用带有非数字簇的estimatr对象。这是通过estimatr::lm_robust()margins::margins()处理模型中哪些变量的内部方式创建的。

此错误已得到解决,因此您在estimatr中有两个解决方案。

让我先生成数据。

library(fabricatr)
library(randomizr)
dat <- fabricate(
  N = 100,
  x = runif(N),
  clust = sample(rep(letters[1:20], each = 5)),
  y_clust = rnorm(N),
  z_clust = cluster_ra(clust),
)

获取最新版本的estimatr(v0.11.0)

https://declaredesign.org/r/estimatr上的开发版本已修复了该错误,并将在下个月左右在CRAN上发布。

install.packages("estimatr", dependencies = TRUE,
                 repos = c("http://r.declaredesign.org", "https://cloud.r-project.org"))
library(estimatr)
lmout_cl <- lm_robust(
  y_clust ~ z_clust + x,
  data = dat,
  clusters = clust
)
library(margins)
mar_cl <- margins(lmout_cl)

使用具有estimatr(v0.10.0)CRAN版本的数字集群

在CRAN上使用现有版本estimatr的一种解决方法是使用数字群集而不是字符群集

dat <- fabricate(
  N = 100,
  x = runif(N),
  clust = sample(rep(1:20, each = 5)),
  y_clust = rnorm(N),
  z_clust = cluster_ra(clust),
)
install.packages("estimatr")
library(estimatr)
lmout_cl <- lm_robust(
  y_clust ~ z_clust + x,
  data = dat,
  clusters = clust
)
mar_cl <- margins(lmout_cl)

答案 1 :(得分:1)

问题在于estimatr::lm_robust()产生了一个"lm_robust"对象,目前似乎margins()不支持该对象。我们可以改用miceadds::lm.cluster()来获得与Stata相同的聚类标准错误。

library(miceadds)

lmout_cl <- lm.cluster(y_clust ~ z_clust + x, data=dat, cluster=dat$clust)

这将产生一个包含两个元素的列表,其中普通lm对象存储在第一个元素中,而带有聚类标准误差的方差-协方差矩阵存储在第二个元素中(请参见str(lmout_cl)):< / p>

> names(lmout_cl)
[1] "lm_res" "vcov"  

margins()现在可以指定为margins(model=model, vcov=vcov),所以我们说:

mar_cl <- with(lmout_cl, margins(lm_res, vcov=vcov))

屈服

> mar_cl
Average marginal effects
stats::lm(formula = formula, data = data)

 z_clust     x
  0.6558 1.444

> summary(mar_cl)
  factor    AME     SE      z      p  lower  upper
       x 1.4445 0.3547 4.0728 0.0000 0.7494 2.1396
 z_clust 0.6558 0.1950 3.3633 0.0008 0.2736 1.0379

具有标准错误集。


与Stata的比较

R

foreign::write.dta(dat, "dat.dta")  # export as Stata data to wd

Stata

. use dat, clear
(Written by R.              )

. quietly regress y_clust z_clust x, vce(cluster clust)

. mfx

Marginal effects after regress
      y  = Fitted values (predict)
         =  .67420391
------------------------------------------------------------------------------
variable |      dy/dx    Std. Err.     z    P>|z|  [    95% C.I.   ]      X
---------+--------------------------------------------------------------------
 z_clust*|   .6557558      .19498    3.36   0.001   .273609   1.0379        .5
       x |   1.444481      .35466    4.07   0.000   .749352  2.13961   .524479
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1

. 

我们可以清楚地看到-这样一来,R在聚类标准误差和边际效应方面与Stata相同。