处理训练和测试数据中缺失值的适当方法

时间:2019-02-22 02:15:56

标签: python missing-data medical r-mice test-data

在医学数据中,通常会有很多缺失值。 现在,我正在处理具有数十个数字特征的数据,其中许多无疑具有很多缺失值。

数据集只有188453个带有标签0或1的数据(时间戳),这不是一个很大的数据集,所以我并不是很想删除数据,并且大多数标签都是0(占数据集的90%) )。 一些特征的数量甚至低于整个数据集的10%。 两个标签的缺失率几乎相同(相关系数几乎为1)。

我知道有几种处理缺失值的方法,例如删除,均值插补等。 我可能会尝试使用MICE,尽管我不知道它是否会工作,因为我注意到标签0和1之间某些功能的相关系数不相同。 例如,在标签0中,特征A和B之间的corr coef较低,而在标签1中较高。

所以,我的问题是:

  1. 对于那些数量低于10%(有些甚至低于1%)的功能,我应该放弃它们还是可以做MICE呢?
  2. 我认为最好对标签0和标签1做不同的MICE,因为某些功能的corr coef不相同,但是如果这样做,我可能不知道如何处理测试数据中的缺失值,因为我不会不知道测试数据的标签。
  3. 两个标签的数量非常不平衡。我不知道如何在缺少这么多值的情况下进行数据扩充。

或者,如果有更好的方法来处理这种情况,我很高兴知道。衷心感谢您阅读我的问题并期待答案!

0 个答案:

没有答案