我想知道装箱后该怎么办。例如,特征之一是年龄。所以我的数据是[11,12,35,26]。
然后我应用大小为10的装箱:
bin,名称
[0,10)-> 1
[10,20)-> 2
[20,30)-> 3
[30,40)-> 4
然后我的数据变为[2,2,4,3]。现在假设我想将此数据置于线性回归模式。我应该将[2,2,4,3]视为数字特征吗?还是我应该将它们视为分类特征,例如先进行一次热编码然后再将其提供给模型?
答案 0 :(得分:1)
如果您要构建线性模型,则最好对这些仓进行一次热编码,这样,如果与目标之间存在线性关系,则其他目标将保留下来。
如果您要建立基于树的模型(如随机森林),则可以使用[2,2,4,3]作为数字特征,因为这些模型是非线性的。
如果构建回归模型并且不希望使用ohe扩展特征空间,则可以将bin视为类别变量,并使用均值/目标编码或通过按照每个bin的目标均值进行数字编码对变量进行编码
有关this article中最后两个过程的更多详细信息。
免责声明:我写了这篇文章。