应用错误收集

我目前正在处理一些调查数据，在这些数据中，人们会问诸如“你多大了几岁”这样的问题？＆＃34;和＃34;你在目前的工作场所待了多久？＆＃34;，他们通过在数字答案中输入他们的年龄，工作经历来回答。

此外，还有一个问题是，人们是否会收到每月奖金。如果答案是“是”，那么他们可以访问下一个问题，即每月奖金有多大，哪些人回答了＃34; no＆＃34;跳过。

这些数据是在互联网上收集的，人们通过邮件收到了邀请。

只有一个小问题。创建调查的人忘了提出一个＆＃34;规则＆＃34;关于向人们询问他们的年龄和奖金的问题，这些问题产生了像＃＆＃34; 1950＆＃34;例如。关于他们的年龄的问题。

有些人已回答有关月度奖金的问题的价值观，必须将其解释为异常值或极端值。

这是一个相当大的数据集，所以总体而言我不必太关心个人的反应。但由于数据的一部分必须发送到公司的其他部门，我想应用一种透明的方法，这也给我留下了最有用的答案。

我的问题是，应该如何处理这些答案？

我目前的做法是： - 如果年龄的答案类似于＆＃34; 1950＆＃34;，我会从2016年减去答案以获得他们的年龄。此外，如果他们回答了一些完全无意义的事情，例如＆＃34; 197＆＃34;，我只是把他们的答案丢失了。 - 如果有关奖金大小的问题答案大于95％，我将答案编码为缺失。这给了我一个很好的正态分布。唯一的问题是，我最终会得到10个观察或者对这个问题的答案少，而不是关于获得奖金的问题。

你会如何处理这些答案？请记住，我必须应用透明的方法，这让我得到了大多数观察。

我知道没有＆＃34;对＆＃34;和＆＃34;错误＆＃34;，但我真的很想听听其他人的经验和建议。

使用数字异常值处理调查数据

0 个答案: