根据一半数据的回归值(使用R)缺少价值插补

时间:2018-10-05 14:33:45

标签: r imputation

我的数据由两波受访者对一系列调查问题的回答组成。这不是小组研究,但是他们对第一波的调查提出了一系列问题,部分与第二波的调查问卷相对应。为了给您一个假设的例子,请将其视为我的调查数据的结构:

id   wave   question1   question2   question3
1    1      #           NA          #
2    1      #           NA          #
3    1      #           NA          #
1    2      #           #           NA
2    2      #           #           NA
3    2      #           #           NA

因此,我有一个id变量,它将在第二波中再次从1开始,但这并不意味着id==1[wave==1] = id==1[wave==2]。因此,它不是面板。另外,我对两个波浪都有“ question1”,仅对第二波浪有“ question2”,而对第一波浪只有“ question3”。

现在,我可以基于两个变量同时存在的一组其他变量的“ question3”回归值来为变量“ question3”估算缺少的第二波数据吗?换句话说,我是否可以基于lm(question3 ~ question1_a + question1_b + question1_c)来估算丢失的“ question3”数据,而所有{quest1_k}都可用于两个波?

  • 这是否是合法方法(假设我的线性模型足够好地预测“ question3”)?
  • 我将如何实施?

0 个答案:

没有答案