我有一个简单的分类问题,我正在尝试使用keras通过神经网络解决。有一个数字数据集,大小为26000 *17。但是问题是,数据集中有很多缺失值(空值)。数据非常敏感,因此我既不能忽略所有包含空值的行,也不能用平均值,均值或任何标准数替换数据中的空值。还存在不使用KNN插补替换丢失条目的约束。 处理此类数据集的最佳方法是什么?
答案 0 :(得分:1)
我不知道您的数据至关重要。顺便说一句,没有那么好的方法来处理缺失值。当然,您必须通过找到均值或平均值或任何标准数字(例如0)来处理它。 KNN插补被认为是最佳方法,但不知道为什么存在不使用KNN插补的约束。
答案 1 :(得分:0)
在任何类型的数字数据集中替换缺失值的最佳方法是KNN-Imputation,它通过考虑邻居条目来替换缺失值。