R:PLM和LSDV模型之间的差异

时间:2018-11-09 08:40:30

标签: r plm

我刚刚开始将注意力集中在固定效果上,因此,如果问题多余,我深表歉意。 根据Oscar Torres-Reyna(https://www.princeton.edu/~otorres/Panel101R.pdf)的Panel101幻灯片,我正在比较两种不同代码的输出:

  1. lsdv <- lm(formula=dependent_variable~poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2)degree = 2, raw=TRUE) + factor(country) -1, data=mydata)

  2. plm <- plm(formula=dependent_variable ~ poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2), data=mydata, model="within, index=c(country)

与Panel101幻灯片一致,两个模型产生的系数完全相同,但调整后的R2相差很大(0.954与0.119)。

我做错了什么或如何解释?

谢谢!

1 个答案:

答案 0 :(得分:0)

(我打算发表评论,但这太久了。。。)

lm模型的摘要报告了以下形式的模型的R2(为简单起见,仅使用一个相关var)

lm(dependent_variable + independent_variable + factor(country))

plm模型的输出报告该模型的R2

lm(dependent_var_demean ~ independent_var_demean)

其中的dependent_var_demean和dependent_var_demean是通过从每个观察值中减去因变量和独立变量的国家/地区平均值来计算的。

事实证明,independent_var的回归系数在两种情况下相同。第一个模型中的R2大得多,因为它具有N + 1个解释变量,而第二个模型中只有2个。

那么R2中的哪个是“正确的”?这取决于上下文。如果您将各个FE视为令人讨厌的参数,并且仅对Independent_variable上的回归系数感兴趣,则从内部模型(或“ PLM输出”)报告R2时将更加一致。在某些应用中,单个FE可能也很有趣,因为它们代理了一些影响相关和独立var的未观察到的质量。在这种情况下,LSDV R2(由lm报告)可能更相关。

尽管如此,应该指出的是,在典型的大N /小T(即许多单位仅被观察到几次)的情况下,各个有限元估计可能会有偏差。这称为附带参数问题。

最后,我认为我需要对lfe package进行一番大喊,以进行固定效果回归。对于大型面板,这是非常有效的,其语法比plm的IMO更好,并且与plm相比,群集和鲁棒的标准错误的处理更加优雅。它还在摘要输出中报告两个R2。