我目前正在处理一些调查数据,在这些数据中,人们会问诸如“你多大了几岁”这样的问题?"和#34;你在目前的工作场所待了多久?",他们通过在数字答案中输入他们的年龄,工作经历来回答。
此外,还有一个问题是,人们是否会收到每月奖金。如果答案是“是”,那么他们可以访问下一个问题,即每月奖金有多大,哪些人回答了#34; no"跳过。
这些数据是在互联网上收集的,人们通过邮件收到了邀请。
只有一个小问题。创建调查的人忘了提出一个"规则"关于向人们询问他们的年龄和奖金的问题,这些问题产生了像#" 1950"例如。关于他们的年龄的问题。
有些人已回答有关月度奖金的问题的价值观,必须将其解释为异常值或极端值。
这是一个相当大的数据集,所以总体而言我不必太关心个人的反应。但由于数据的一部分必须发送到公司的其他部门,我想应用一种透明的方法,这也给我留下了最有用的答案。
我的问题是,应该如何处理这些答案?
我目前的做法是: - 如果年龄的答案类似于" 1950",我会从2016年减去答案以获得他们的年龄。此外,如果他们回答了一些完全无意义的事情,例如" 197",我只是把他们的答案丢失了。 - 如果有关奖金大小的问题答案大于95%,我将答案编码为缺失。这给了我一个很好的正态分布。唯一的问题是,我最终会得到10个观察或者对这个问题的答案少,而不是关于获得奖金的问题。
你会如何处理这些答案?请记住,我必须应用透明的方法,这让我得到了大多数观察。
我知道没有"对"和"错误",但我真的很想听听其他人的经验和建议。