我的数据有很多缺失值,因此我必须预测这些值。一种方法是取这些值的平均值。但我想听听其他观点。经验丰富的数据科学家如何解决此类问题?
答案 0 :(得分:0)
您缺少的值是分类的还是连续的?
一种方法是完全删除样本,但这可能会导致采样偏差,因为缺失值可能是某种因果关系的结果,也就是说,缺失值并不是随机完全缺失的。
如果数据具有足够的维数,则可以将缺失值视为输出,并尝试应用预测模型,并希望它能够在给定已有解释变量的情况下忠实地估计缺失值。
选择最频繁的值,中位数或平均数也可以作为一种选择,但是在进行平均时请注意离群值,因为这些值可能对均值产生巨大影响。
答案 1 :(得分:0)
这取决于变量的性质,可能是一些统计数据,例如均值或中位数。另一种做法是为缺失的变量分配一些与其他变量不同的值,例如0,-1或类似的值。
答案 2 :(得分:0)
最困难的方法是估算数据集,并且不要偏离事实太远。以下是验证您做得如何的测试。如果其他参数提供了足够的证据,可以对丢失的数据进行精确的估算……则它应该能够对现有数据进行处理。
因此,如果缺少60%的列,请在此列为当前位置的地方进行行观察。
接下来,随机选择删除60%的此子数据。现在运行您选择的插补方法。
将估算的数据集与真实数据集进行比较,以求相似。确定它们是否足够接近您,然后针对完整数据集运行此操作。如果您需要捍卫自己,至少这种方法可以让您站起来。
打好仗。