我在合成数据框中包含一列“性别”,其value_counts如下所示:
df['Gender'].value_counts()
male 42758
female 27170
other 27060
unknown 6849
0 724
Name: Gender, dtype: int64
我正在预处理此数据集以进行线性回归。将'0'和'unknown'合并在一起并用'male'代替它们的出现是否有意义,因为'male'是最频繁出现的值?
答案 0 :(得分:0)