合并数值特征后该怎么办?

时间:2019-06-01 01:53:43

标签: machine-learning binning feature-engineering

我想知道装箱后该怎么办。例如,特征之一是年龄。所以我的数据是[11,12,35,26]。

然后我应用大小为10的装箱:

bin,名称

[0,10)-> 1

[10,20)-> 2

[20,30)-> 3

[30,40)-> 4

然后我的数据变为[2,2,4,3]。现在假设我想将此数据置于线性回归模式。我应该将[2,2,4,3]视为数字特征吗?还是我应该将它们视为分类特征,例如先进行一次热编码然后再将其提供给模型?

1 个答案:

答案 0 :(得分:1)

如果您要构建线性模型,则最好对这些仓进行一次热编码,这样,如果与目标之间存在线性关系,则其他目标将保留下来。

如果您要建立基于树的模型(如随机森林),则可以使用[2,2,4,3]作为数字特征,因为这些模型是非线性的。

如果构建回归模型并且不希望使用ohe扩展特征空间,则可以将bin视为类别变量,并使用均值/目标编码或通过按照每个bin的目标均值进行数字编码对变量进行编码

有关this article中最后两个过程的更多详细信息。

免责声明:我写了这篇文章。