在医学数据中,通常会有很多缺失值。 现在,我正在处理具有数十个数字特征的数据,其中许多无疑具有很多缺失值。
数据集只有188453个带有标签0或1的数据(时间戳),这不是一个很大的数据集,所以我并不是很想删除数据,并且大多数标签都是0(占数据集的90%) )。 一些特征的数量甚至低于整个数据集的10%。 两个标签的缺失率几乎相同(相关系数几乎为1)。
我知道有几种处理缺失值的方法,例如删除,均值插补等。 我可能会尝试使用MICE,尽管我不知道它是否会工作,因为我注意到标签0和1之间某些功能的相关系数不相同。 例如,在标签0中,特征A和B之间的corr coef较低,而在标签1中较高。
所以,我的问题是:
或者,如果有更好的方法来处理这种情况,我很高兴知道。衷心感谢您阅读我的问题并期待答案!