plm:固定效果回归-索引/ ID顺序

时间:2020-01-09 14:03:03

标签: r regression plm

我正在使用plm包运行固定效果回归。 为什么ID码的顺序以及对回归有何影响?

我使用这些代码运行回归,只是ID代码CompanyYear的顺序不同。

代码:

MV_Year <- plm (MVlog ~ LEV + Size + DY + RDlog
                , data=Values, model="within", index= c("Year","Company"))


MV_Company <- plm (MVlog ~ LEV + Size + DY + RDlog,
                   data=Values, model="within", index= c("Company", "Year"))

相应的输出: MV_Year:

Oneway (individual) effect Within Model

Call:
plm(formula = MVlog ~ LEV + Size + DY + RDlog, data = Values, 
    model = "within", index = c("Year", "Company"))

Unbalanced Panel: n = 17, T = 557-4280, N = 29890

Residuals:
     Min.   1st Qu.    Median   3rd Qu.      Max. 
-5.250901 -0.457100  0.015763  0.476140  6.006483 

Coefficients:
         Estimate  Std. Error t-value Pr(>|t|)    
LEV   -1.95485031  0.04060539 -48.143  < 2e-16 ***
Size   0.75233709  0.00314849 238.952  < 2e-16 ***
DY    -0.00033192  0.00013482  -2.462  0.01382 *  
RDlog  0.13148626  0.00300509  43.755  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    102610
Residual Sum of Squares: 17568
R-Squared:      0.82879
Adj. R-Squared: 0.82868
F-statistic: 36148 on 4 and 29869 DF, p-value: < 2.22e-16

MV_Company

Oneway (individual) effect Within Model

Call:
plm(formula = MVlog ~ LEV + Size + DY + RDlog, data = Values, 
    model = "within", index = c("Company", "Year"))

Unbalanced Panel: n = 5911, T = 1-17, N = 29890

Residuals:
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-4.35967 -0.38711  0.00000  0.40528  5.48624 

Coefficients:
         Estimate  Std. Error  t-value Pr(>|t|)    
LEV   -1.88958140  0.04392991 -43.0135  < 2e-16 ***
Size   0.74650676  0.00375926 198.5782  < 2e-16 ***
DY    -0.00034308  0.00014585  -2.3524  0.01866 *  
RDlog  0.13904360  0.00331886  41.8950  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    58168
Residual Sum of Squares: 12747
R-Squared:      0.78085
Adj. R-Squared: 0.72679
F-statistic: 21356.2 on 4 and 23975 DF, p-value: < 2.22e-16

为什么在不同的估算值和R ^ 2之间的输出有这么小的差异?

1 个答案:

答案 0 :(得分:1)

使用index=选项的原因是plm()在内部使用pdata.frame(),它期望第一列为"id",第二列为{{1 }}(如果"time"

中未指定相应的名称)

index=(<id>, <time>)中,我们可以看到:

index参数指示面板的尺寸。可以是:

  • 两个字符串的向量,其中包含个人名称和时间索引,
  • 一个字符串,它是各个索引变量的名称。在这种情况下,时间索引将自动创建并
    假设连续且
    ,添加了一个名为“时间”的新变量。 按照原始数据的顺序递增时间段,...

以下示例将帮助我们理解这一点。首先,我们加载?pdata.frame数据,如下所示。

Grunfeld

第一列是ID,第二列是时间。让我们估计一个模型。

library(plm)
data(Grunfeld)
head(Grunfeld, 3)
#   firm year   inv  value capital
# 1    1 1935 317.6 3078.5     2.8
# 2    1 1936 391.8 4661.7    52.6
# 3    1 1937 410.6 5387.1   156.9

现在,当我们混淆第一列和第二列时,

summary(plm(inv ~ value + capital, data=Grunfeld,
            model="within"))$coe
#          Estimate Std. Error   t-value     Pr(>|t|)
# value   0.1101238 0.01185669  9.287901 3.921108e-17
# capital 0.3100653 0.01735450 17.866564 2.220007e-42

结果不同。但是当我们用summary(plm(inv ~ value + capital, data=Grunfeld[c(2, 1, 3:5)], model="within"))$coe # Estimate Std. Error t-value Pr(>|t|) # value 0.1167978 0.006331302 18.447672 3.586220e-43 # capital 0.2197066 0.032296107 6.802881 1.503653e-10 告诉plm使用哪些列时,

index=(<id>, <time>)

我们得到了旧的结果。如果我们完全混淆了列,

summary(plm(inv ~ value + capital, data=Grunfeld[c(2, 1, 3:5)], 
            index=c("firm", "year"),
            model="within"))$coe
#          Estimate Std. Error   t-value     Pr(>|t|)
# value   0.1101238 0.01185669  9.287901 3.921108e-17
# capital 0.3100653 0.01735450 17.866564 2.220007e-42

summary(plm(inv ~ value + capital, data=Grunfeld[c(3:5, 1, 2)], model="within"))$coe # Error 确实是令人困惑:)但是,和以前一样,当我们帮助plm()时,它的行为符合预期,并再次产生 right 结果。

plm()

通知,您实际上只是在计算公司固定效应。如果您打算计算具有固定和年度固定效应的模型,那么就可以将其作为LSDV模型进行处理

summary(plm(inv ~ value + capital, data=Grunfeld[c(3:5, 1, 2)], 
            index=c("firm", "year"),
            model="within"))$coe
#          Estimate Std. Error   t-value     Pr(>|t|)
# value   0.1101238 0.01185669  9.287901 3.921108e-17
# capital 0.3100653 0.01735450 17.866564 2.220007e-42

我们看到这些值与上面的有所不同,因为到目前为止,summary(lm(inv ~ value + capital + factor(firm) + factor(year) - 1, Grunfeld))$coe[1:2, ] # Estimate Std. Error t value Pr(>|t|) # value 0.1177159 0.01375128 8.560354 6.652575e-15 # capital 0.3579163 0.02271901 15.754043 5.453066e-35 仅包括了固定的固定效应,请参阅:

plm

为正确起见,我们还需要指定summary(lm(inv ~ value + capital + factor(firm) - 1, Grunfeld))$coe[1:2, ] # Estimate Std. Error t value Pr(>|t|) # value 0.1101238 0.01185669 9.287901 3.921108e-17 # capital 0.3100653 0.01735450 17.866564 2.220007e-42 以获得固定和年度固定效应。

effect="twoways"