我有一个数据集,其中包含两个级别男性(M)和女性(F)的变量GENDER有很多缺失值。我如何处理缺失值?处理这些缺失值的不同方法有哪些。任何帮助将不胜感激。
答案 0 :(得分:5)
有几种技术可以估算缺失值。我一直在为Uni的一个关于这些方法的项目写一篇论文 我将简要介绍5种常用的缺失数据插补技术。在下文中,我们将考虑一个数据集,其中每一行都是一个模式(或观察),每一列都是一个特征(或属性),假设我们想要“修复”一个在 j中具有缺失值的给定模式 -th feature(position)。
K-Nearest Neighbors的 K 值可以通过交叉验证找到,可以先验设置,也可以使用经验法则值( K =实例数的平方根。)
相异性度量实际上取决于您,但常见的选择是HEOM(异构欧几里德重叠度量),可以找到here(第2.3节)。这种相异性度量在具有缺失值负载的数据集中非常有效,因为它允许您处理具有缺失值的模式(显然不在您要估计的特征中)。
丢弃要估算的特征中缺少值的模式确实很重要:如果您的相异度度量返回的特征 j 中也缺少值的最相似模式,则基本上替换缺失值另一个缺失值。无意义。这个例子适用于Hot-decking,但你可以扩展这样的概念,即使对于K-near邻居中的 K 最相似的模式(也就是不幸的情况,其中中最频繁的项目 K 的 -th功能大多数相似的模式也是缺失值。
答案 1 :(得分:1)
这在很大程度上取决于具体情况。但是,一些通用的方法是:
删除缺少某些数据的行。
Imputing missing values。基本上,您可以将性别列视为必须预测的内容(可能使用其他列)。使用包含所有值的行训练预测器,并预测丢失的预测器。
创建第三类“缺失”,并让机器学习算法处理它。