我们应该在多大程度上填充数据集中某个要素的缺失值,以使其不会变得多余?
我有一个最多有42000个观测值的数据集。有三个功能缺少大约20000,35000和7000个值。我是否仍应通过填写这些缺失值或转储这三个功能来使用它们?
如果给定该功能缺失值的数量,我们如何确定保留或转储功能的阈值?
答案 0 :(得分:1)
通常,您可以从数据集中的最近样本中插入缺失值,我喜欢这本关于缺失值{4}的pandas的手册,它列出了许多可能的技术来插入数据集的已知部分中的缺失值。
但是在你的情况下,我认为最好删除这两个第一个特征,因为我怀疑可能有任何好的插值缺失值,当你有这么大的数量,几乎超过一半值。
但您可能会尝试修复缺少值的第三个功能。