我正在sklearn
中进行一个回归项目,在该项目中,我对各种数值和类别变量使用了LASSO回归。分类变量是使用One-hot-encoder方法转换的。
由于特征矩阵从一开始就进行了归一化,所以最终LASSO模型中系数的绝对值应该能够代表模型的相对重要性。
但是,我无法找出比较数字变量和分类变量之间重要性的方法。例如(使用平方英尺和家庭类型来预测房价):
Feature Coefficient
sqft 114.35
type_house 67.11
type_apartment -23.97
type_condo 5.14
比较sqft和类型的重要性的合理方法应该是什么?
答案 0 :(得分:1)
LASSO
允许特征选择,但是可以通过估计具有变化的λ(惩罚系数)的模型来进行。只需在y-axis
上绘制估计系数,在x-axis
上绘制λ。这将使您看到变量重要性随着正则化惩罚的增加而变化。
Here,您将找到更多详细的描述(图片来源)。您可以看到的是,wt
是最重要的变量之一,因为即使惩罚(λ)为高> 1,它仍然具有与零不同的值。