为缺失值NA创建反事实组

时间:2015-01-03 14:16:26

标签: r matching na

我有一个数据框,其中包含17497个1681个变量的观测结果,我正在使用R.一些变量是名义上的,一些是序数的,一些是数字的,等等。

我专注于代表上个月净召回工资的那个(数据框$ q31,其中q31仅表示问卷中的问题31)。变量是数字。 它发生这样,有许多缺失值表示为NA。具有管理和专业职位的人往往更不可能透露他们的收入。与此同时,更有可能获得更多收入。因此,我的进一步分析可能会被扭曲。

我想创建另一个具有净召回工资的列,其中NA被替换为不是平均值,但是给定人员最可能考虑的数字优先考虑数据帧中的所有其他特征。 如果不可能,至少是:

  • 专业(q22isc27,ordinal)
  • 多年的经验(q24c,数字)
  • 年龄(q9age,数字)
  • 性别(q8,1-男人,2女人)
  • 调查年份(pgssyear,数字)
  • 多年的教育(有问题:所有年份q131ed变量可用,由测量员自己填写并且非常近似,另外它需要重新编码为数字,因为它以某种方式显示为R中的名义;自1999年q131edr是可用的,由被调查自己填写并且是序数的(在spss中显示为“比例”)
  • 婚姻状况(q21,序数)
  • 雇用公司的所有权状况(q46e,序数)
  • 每周工作小时数(q21,数字)
  • 体重变量(体重,数字:它描绘了一个人对整个人口的“代表性”)(!)

如果可能的话,也是受访者居住的地区,但直到1999年,波兰有49个地区,之后有16个地区,因此有两个变量:voiev49和voiev16被编码为无效年份的NA。

我认为这可能与倾向得分匹配或我在网上找到的这些包有关:http://cran.r-project.org/web/packages/optmatch/optmatch.pdf

在R中有没有神奇的方法呢?

1 个答案:

答案 0 :(得分:0)