LASSO中的一键编码分类变量,如何比较变量重要性?

时间:2018-07-25 16:48:07

标签: python variables scikit-learn regression lasso

我正在sklearn中进行一个回归项目,在该项目中,我对各种数值和类别变量使用了LASSO回归。分类变量是使用One-hot-encoder方法转换的。

由于特征矩阵从一开始就进行了归一化,所以最终LASSO模型中系数的绝对值应该能够代表模型的相对重要性。

但是,我无法找出比较数字变量和分类变量之间重要性的方法。例如(使用平方英尺和家庭类型来预测房价):

Feature         Coefficient
sqft             114.35
type_house       67.11
type_apartment   -23.97
type_condo       5.14

比较sqft和类型的重要性的合理方法应该是什么?

1 个答案:

答案 0 :(得分:1)

LASSO允许特征选择,但是可以通过估计具有变化的λ(惩罚系数)的模型来进行。只需在y-axis上绘制估计系数,在x-axis上绘制λ。这将使您看到变量重要性随着正则化惩罚的增加而变化

Here,您将找到更多详细的描述(图片来源)。您可以看到的是,wt是最重要的变量之一,因为即使惩罚(λ)为高> 1,它仍然具有与零不同的值

Variable importance and lambda