Question

我在合成数据框中包含一列“性别”，其value_counts如下所示：

df['Gender'].value_counts()

    male       42758
    female     27170
    other      27060
    unknown     6849
    0            724
    Name: Gender, dtype: int64

我正在预处理此数据集以进行线性回归。将'0'和'unknown'合并在一起并用'male'代替它们的出现是否有意义，因为'male'是最频繁出现的值？

Answer 1

与这些列的其他级别相比，您可以删除这些行，因为它们的计数非常低。
另一种解决方案是使用其他行中的中值，众数或最接近的值来删除值和fillna。

如何处理分类变量列中的0值？

1 个答案: