我有一个数据框,其中包含17497个1681个变量的观测结果,我正在使用R.一些变量是名义上的,一些是序数的,一些是数字的,等等。
我专注于代表上个月净召回工资的那个(数据框$ q31,其中q31仅表示问卷中的问题31)。变量是数字。 它发生这样,有许多缺失值表示为NA。具有管理和专业职位的人往往更不可能透露他们的收入。与此同时,更有可能获得更多收入。因此,我的进一步分析可能会被扭曲。
我想创建另一个具有净召回工资的列,其中NA被替换为不是平均值,但是给定人员最可能考虑的数字优先考虑数据帧中的所有其他特征。 如果不可能,至少是:
如果可能的话,也是受访者居住的地区,但直到1999年,波兰有49个地区,之后有16个地区,因此有两个变量:voiev49和voiev16被编码为无效年份的NA。
我认为这可能与倾向得分匹配或我在网上找到的这些包有关:http://cran.r-project.org/web/packages/optmatch/optmatch.pdf
在R中有没有神奇的方法呢?
答案 0 :(得分:0)
似乎我可以使用Amelia包来处理它: http://cran.r-project.org/web/packages/Amelia/vignettes/amelia.pdf#subsection.4.4 http://cran.r-project.org/web/packages/Amelia/Amelia.pdf
并且确实,在Cross Validated上有很多材料,例如: https://stats.stackexchange.com/questions/95832/missing-values-nas-in-the-test-data-when-using-predict-lm-in-r
@nograpes,谢谢你的所有提示!