我们正在使用ESS数据集,但不确定如何处理SAS Enterprise Guide中的缺失值问题。我们的因变量是“主观幸福感”,并且旨在包含大量的控制变量 - 因此,我们的情况是我们有一个包含大量缺失值的数据集。
我们不想使用“列表删除”。相反,我们希望根据受访者的回答以不同的方式处理不同的错误:“不回答”,“不适用”,“拒绝”,“不知道”。例如,我们计划进行不适用的成对删除,而我们可能希望使用例如其他一些反应的平均值 - 取决于问题(假设受访者的回答提供有关MCAR,MAR,NMAR的信息)。
我们的主要问题是:
我们已经尝试了解这一点,但有点困惑,所以我们非常感谢任何帮助:)
答案 0 :(得分:1)
在技术说明中,SAS提供了特殊的缺失值:.a .b .c等(不区分大小写)。
替换SAS中的数字值,例如99 =.a
77 = .b
决策树例如能够将这些作为单独的值处理。
要在回归模型中保留缺失观察的信息,您必须进行某种权衡(找到对您的问题最不利的解决方案)。
一个经典的解决方案是创建虚拟变量并替换 缺失值与平均值。包括假人和傻瓜 模型中的原始变量。可能的问题:系数 将是有偏见的,多重共线性,太多的类别/变量。
另一种方法是将变量BIN分类。做 只是按价值(例如十分位数),你可能会遭受信息损失。通过理论和方法来做 你可能会遭受确认偏见。
更先进的方法是计算信息 值 (http://support.sas.com/resources/papers/proceedings13/095-2013.pdf) 您的自变量。从而替换所有值,包括 失误。因此,这将再次导致偏见和损失 信息。但至少可能是识别的一个很好的步骤 有用/无用的缺失值。