如何处理分类变量列中的0值?

时间:2019-12-12 14:37:01

标签: python pandas numpy machine-learning scikit-learn

我在合成数据框中包含一列“性别”,其value_counts如下所示:

df['Gender'].value_counts()

    male       42758
    female     27170
    other      27060
    unknown     6849
    0            724
    Name: Gender, dtype: int64

我正在预处理此数据集以进行线性回归。将'0'和'unknown'合并在一起并用'male'代替它们的出现是否有意义,因为'male'是最频繁出现的值?

1 个答案:

答案 0 :(得分:0)

  • 与这些列的其他级别相比,您可以删除这些行,因为它们的计数非常低。
  • 另一种解决方案是使用其他行中的中值,众数或最接近的值来删除值和fillna。