有一个包含3个变量的数据集 - ID , 工资 和 年 ,这是一个不平衡的面板。有两个问题:
例如,如果 ID = 1的人未在< Wage 中报告< strong> 年 = 2010(因此没有观察到 年 = 2010和 ID < / em> = 1),我想删除 ID = 1的所有数据。
这似乎是一个受欢迎的问题,但我在Google和StackOverflow上找到的所有内容都是Stata的多种解决方案,而SPSS则没有。
更新:我设法使用COUNTIF Excel功能解决了这个问题。我创建了一个变量,用于计算某些 ID 出现在数据集中的次数,并保持对此函数=年数的观察,从而删除不平衡的 ID 即可。但是,我仍然迫切需要解决第二个问题:)
例如,如果 ID = 1的人在中报告 工资 = 0 年 = 2010年,我想删除 ID = 1的所有数据。
如果SPSS中有一个填充命令可以平衡不平衡面板和缺失值,那么第二个问题的解决方案似乎是同时解决第一个问题。
更新2:我在 工资 和 ID 上使用COUNTIFS也解决了这个问题。 Excel是无所不能的,赞美Excel。
答案 0 :(得分:1)
这将解决这两项任务:
recode Wage (0=sysmis).
AGGREGATE /OUTFILE=* MODE=ADDVARIABLES /BREAK=ID /Wage_nmiss=NMISS(Wage).
select if Wage_nmiss=0.
execute.
答案 1 :(得分:0)
我不知道数据的用途是什么,但如果它是重要的,你应该认真地重新考虑删除缺少变量的观察结果。
通常,特别是在有关工资的数据中,缺失值会告诉您应该记录的值(链接到Wikipedia,关键字:MAR,MCAR,MNAR))。没有简单的方法可以摆脱样本中的这种偏见,但只是删除观察结果并不是一个严肃的选择。有些算法可以根据数据集中的其他值巧妙地计算缺失值。
如果您愿意,我可以投入更多时间,并帮助您找到合适的算法来估算缺失值。