根据特征值的频率选择分类特征

时间:2018-11-13 10:17:45

标签: machine-learning

我正在研究基本的机器学习线性回归模型。 我有一些分类特征,例如

AllPub    1459
NoSeWa       1
Name: Utilities, dtype: int64

可以看到,AllPub是贡献更多的一种。那么它在模型创建中有用吗?我可以用吗?

1 个答案:

答案 0 :(得分:0)

如您所见,大多数值是AllPub的,只有一个值是NoSeWa的。如果您保留或删除它,并不会有多大区别。 另一种思维方式可能是离群值。由于只有一个计数,因此可能输入错误。您可以使用mode估算该值。