我正在尝试使用bife软件包为品牌估算固定效果的logit模型。但是,在我的数据集中,我也有没有差异的品牌(即只有一个或很少的观察值)。以我的理解,对于只有一个或很少观察值的单元,固定效果没有意义。
这是我的问题:面包师如何处理很少或只有一次观察的单位?他们只是被忽略了吗?我能获得多少案例被忽略的信息?要在回归中考虑多少个案例?
具体来说,我有一个数据集,可在其中调查电视观众在特定广告期间是否转播。 depedent变量是二进制的,指示快速中断或无快速中断。我的数据集包括大约。约300个品牌的1700个电视广告。但是,有些品牌在我的数据集中只出现一次或两次,而另一些则多次出现。
要理解,我运行了两个模型:一个在完整数据集上,一个在数据集上,其中我删除了只出现一次的品牌的所有观察结果。如果忽略只有1个观测值的单位,则结果应完全相同。确实,结果非常相似,但并不完全相同。
完整数据集“ df”的代码:
bife1_v3 <- bife(zap ~ entertaining + emotion + humor + information +
brand_presence + brand_timing
+ ad_position + spot_length + n_zaps_before
+ motiv_code_exposure_overall + brand_exposure_day + category_exposure_ad_break | brand_id,
data = df)
精简数据集“ df2”的代码:
df2 <- df[which(df$airings_per_brand > 1), ]
bife1_v4 <- bife(zap ~ entertaining + emotion + humor + information +
brand_presence + brand_timing
+ ad_position + spot_length + n_zaps_before
+ motiv_code_exposure_overall + brand_exposure_day + category_exposure_ad_break | brand_id,
data = df2)
这是两个模型的结果:
> summary(bife1_v3)
Log-Likelihood= -29136.69
n= 470909, number of events= 5970
Demeaning converged after 6 iteration(s)
Offset converged after 5 iteration(s)
Corrected structural parameter(s):
Estimate Std. error t-value Pr(> t)
entertaining -0.090803 0.037993 -2.390 0.01685 *
emotion -0.069311 0.034810 -1.991 0.04647 *
humor -0.007942 0.024632 -0.322 0.74714
information 0.001840 0.032335 0.057 0.95463
brand_presence 0.082123 0.032528 2.525 0.01158 *
brand_timing -0.074055 0.025863 -2.863 0.00419 **
ad_position -0.023695 0.003115 -7.606 2.84e-14 ***
spot_length 0.035574 0.003832 9.283 < 2e-16 ***
n_zaps_before 0.246529 0.004155 59.337 < 2e-16 ***
motiv_code_exposure_overall -0.202511 0.016135 -12.551 < 2e-16 ***
brand_exposure_day -0.196333 0.035130 -5.589 2.29e-08 ***
category_exposure_ad_break -0.666326 0.045204 -14.741 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
AIC= 58913.39 , BIC= 62453.36
Average individual fixed effects= -4.0151
> summary(bife1_v4)
Log-Likelihood= -27222.75
n= 433678, number of events= 5562
Demeaning converged after 6 iteration(s)
Offset converged after 6 iteration(s)
Corrected structural parameter(s):
Estimate Std. error t-value Pr(> t)
entertaining -0.090204 0.038086 -2.368 0.01787 *
emotion -0.069082 0.034890 -1.980 0.04770 *
humor -0.007835 0.024669 -0.318 0.75078
information 0.001525 0.032441 0.047 0.96250
brand_presence 0.081841 0.032589 2.511 0.01203 *
brand_timing -0.074087 0.025893 -2.861 0.00422 **
ad_position -0.023987 0.003128 -7.668 1.75e-14 ***
spot_length 0.035542 0.003838 9.260 < 2e-16 ***
n_zaps_before 0.244002 0.004285 56.945 < 2e-16 ***
motiv_code_exposure_overall -0.202554 0.016200 -12.504 < 2e-16 ***
brand_exposure_day -0.199448 0.035252 -5.658 1.53e-08 ***
category_exposure_ad_break -0.647016 0.045494 -14.222 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
AIC= 54871.49 , BIC= 57210.24
Average individual fixed effects= -3.9932
为什么我会看到这些差异?