用均值(Weka)替换缺失值

时间:2012-04-22 16:42:55

标签: replace weka missing-data

在Weka中有一个名为" ReplaceMissingValues"的过滤器。允许使用每个属性的平均值替换数据集中的所有缺失值。我想使用属于某个类的值的平均值替换某个属性的缺失值。例如,在二进制数据集中,我认为使用仅使用属于正类的记录计算的均值替换属于正类的记录中的属性的缺失值更为正确。那怎么可能实现呢?我们如何才能仅为属于某个类的记录替换值?

1 个答案:

答案 0 :(得分:1)

如果您想通过从特定A类的训练实例中计算出的平均值来替换A类的缺失值,那么您将“偏向”数据集。为避免偏见(最终会使训练模型过度拟合),最好使用默认的“替换缺失值”功能 - 即考虑所有训练实例的均值和模式,而不仅仅考虑该特定类别。