Question

我刚刚开始将注意力集中在固定效果上，因此，如果问题多余，我深表歉意。根据Oscar Torres-Reyna（https://www.princeton.edu/~otorres/Panel101R.pdf）的Panel101幻灯片，我正在比较两种不同代码的输出：

lsdv <- lm(formula=dependent_variable~poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2)degree = 2, raw=TRUE) + factor(country) -1, data=mydata)
plm <- plm(formula=dependent_variable ~ poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2), data=mydata, model="within, index=c(country)

与Panel101幻灯片一致，两个模型产生的系数完全相同，但调整后的R2相差很大（0.954与0.119）。

我做错了什么或如何解释？

谢谢！

Answer 1

（我打算发表评论，但这太久了。。。）

lm模型的摘要报告了以下形式的模型的R2（为简单起见，仅使用一个相关var）

lm(dependent_variable + independent_variable + factor(country))

plm模型的输出报告该模型的R2

lm(dependent_var_demean ~ independent_var_demean)

其中的dependent_var_demean和dependent_var_demean是通过从每个观察值中减去因变量和独立变量的国家/地区平均值来计算的。

事实证明，independent_var的回归系数在两种情况下相同。第一个模型中的R2大得多，因为它具有N + 1个解释变量，而第二个模型中只有2个。

那么R2中的哪个是“正确的”？这取决于上下文。如果您将各个FE视为令人讨厌的参数，并且仅对Independent_variable上的回归系数感兴趣，则从内部模型（或“ PLM输出”）报告R2时将更加一致。在某些应用中，单个FE可能也很有趣，因为它们代理了一些影响相关和独立var的未观察到的质量。在这种情况下，LSDV R2（由lm报告）可能更相关。

尽管如此，应该指出的是，在典型的大N /小T（即许多单位仅被观察到几次）的情况下，各个有限元估计可能会有偏差。这称为附带参数问题。

最后，我认为我需要对lfe package进行一番大喊，以进行固定效果回归。对于大型面板，这是非常有效的，其语法比plm的IMO更好，并且与plm相比，群集和鲁棒的标准错误的处理更加优雅。它还在摘要输出中报告两个R2。

R：PLM和LSDV模型之间的差异

1 个答案: