处理数据集中的缺失值

时间:2015-10-03 04:45:46

标签: validation machine-learning dataset data-analysis

我们应该在多大程度上填充数据集中某个要素的缺失值,以使其不会变得多余?

我有一个最多有42000个观测值的数据集。有三个功能缺少大约20000,35000和7000个值。我是否仍应通过填写这些缺失值或转储这三个功能来使用它们?

如果给定该功能缺失值的数量,我们如何确定保留或转储功能的阈值?

1 个答案:

答案 0 :(得分:1)

通常,您可以从数据集中的最近样本中插入缺失值,我喜欢这本关于缺失值{4}的pandas的手册,它列出了许多可能的技术来插入数据集的已知部分中的缺失值。

但是在你的情况下,我认为最好删除这两个第一个特征,因为我怀疑可能有任何好的插值缺失值,当你有这么大的数量,几乎超过一半值。

但您可能会尝试修复缺少值的第三个功能。