SAS Enterprise Guide,针对缺失变量的不同处理

时间:2016-03-24 10:14:23

标签: sas imputation

我们正在使用ESS数据集,但不确定如何处理SAS Enterprise Guide中的缺失值问题。我们的因变量是“主观幸福感”,并且旨在包含大量的控制变量 - 因此,我们的情况是我们有一个包含大量缺失值的数据集。

我们不想使用“列表删除”。相反,我们希望根据受访者的回答以不同的方式处理不同的错误:“不回答”,“不适用”,“拒绝”,“不知道”。例如,我们计划进行不适用的成对删除,而我们可能希望使用例如其他一些反应的平均值 - 取决于问题(假设受访者的回答提供有关MCAR,MAR,NMAR的信息)。

我们的主要问题是:

  • 目前,我们缺少的变量在数据集中以不同的方式标记(99,77,999,88等),我们是否应该在继续使用SAS Enterprise Guide之前在Excel中替换这些值?如果是的话 - 我们应该如何最好地取代它们,因为它们应该以不同的方式对待?
  • 我们如何告诉SAS Enterprise Guide以不同方式处理不同的错失?
  • 如果我们使用虚拟变量来标记拒绝,例如收入,我们如何在最终回归中包括这些?

我们已经尝试了解这一点,但有点困惑,所以我们非常感谢任何帮助:)

1 个答案:

答案 0 :(得分:1)

在技术说明中,SAS提供了特殊的缺失值:.a .b .c等(不区分大小写)。 替换SAS中的数字值,例如99 =.a 77 = .b 决策树例如能够将这些作为单独的值处理。

要在回归模型中保留缺失观察的信息,您必须进行某种权衡(找到对您的问题最不利的解决方案)。

  • 一个经典的解决方案是创建虚拟变量并替换 缺失值与平均值。包括假人和傻瓜 模型中的原始变量。可能的问题:系数 将是有偏见的,多重共线性,太多的类别/变量。

  • 另一种方法是将变量BIN分类。做 只是按价值(例如十分位数),你可能会遭受信息损失。通过理论和方法来做 你可能会遭受确认偏见。

  • 更先进的方法是计算信息 值 (http://support.sas.com/resources/papers/proceedings13/095-2013.pdf) 您的自变量。从而替换所有值,包括 失误。因此,这将再次导致偏见和损失 信息。但至少可能是识别的一个很好的步骤 有用/无用的缺失值。