我正在研究基本的机器学习线性回归模型。 我有一些分类特征,例如
AllPub 1459
NoSeWa 1
Name: Utilities, dtype: int64
可以看到,AllPub是贡献更多的一种。那么它在模型创建中有用吗?我可以用吗?
答案 0 :(得分:0)
如您所见,大多数值是AllPub的,只有一个值是NoSeWa的。如果您保留或删除它,并不会有多大区别。 另一种思维方式可能是离群值。由于只有一个计数,因此可能输入错误。您可以使用mode估算该值。