具有计数独立变量的连续因变量的回归模型

时间:2018-07-04 15:48:58

标签: r linear-regression

我目前正在一个项目中,我必须估计不同工作项(任务)的平均处理时间。

我有以下面板数据:

我的样本量是n = 2000个个体工人,T = 10(每个时间间隔是四个星期)

  • 自变量:51个不同的工作项。我有每个工作项目的计数数据(每个工人在四个星期内执行的次数)

  • 因变量:工人的总工作时间(超过4周)

我的分析目标是找到回归系数(它们是每个工作项平均完成时间的估计值)。我还可以将其他回归指标(工作项目除外),例如经验,年龄...纳入我的模型。

y = Bo + B1 * X1 + ... + BkXk + e y:总工作时间; X:工作项数

问题:

现在,我完成了数据的清理和处理,并进行了一些探索性的数据分析。

  1. 某些工作项有很多零(该工作项在该时间段内仅由几名工人执行一次或两次)。

  2. 从VIF中,我可以看到自变量中存在不完善的多重共线性。一些自变量的VIF为5到6。

问题:

  1. 有关如何指定模型的任何建议?

我查看了箱形图并消除了每个回归变量的离群值,我发现一些回归变量高度偏斜(由于存在很多zéros)。

我还针对总的完成时间绘制了每个回归变量,以查看是否存在任何线性关系。这样的话,其他看起来更像是二次关系。

  1. 除了消除具有高VIF的回归变量以外,还有什么方法可以处理多重共线性?这是因为我需要估算每个工作项的系数。

  2. 我应该将截距设置为0吗?我肯定知道,当所有回归变量都为0时(工作项的数量全部为0,我的总工作时间应该为零)。

对于该问题,我也欢迎提出任何建议/建议。谢谢!

0 个答案:

没有答案