因此,基本上,在拟合套索估计量和岭回归时,所有变量都保留在模型中(它们都没有精确地缩小为零)。现在对于ridge这是正常的,但是对于套索,其中一些应设置为零。同样,当我拟合一个弹性网(alpha = 0.5)时,大多数变量都精确设置为零。现在这很奇怪,因为那样,套索回归不应该将某些系数也缩小到零吗?也许在我的代码中有什么错误会产生这些结果,但是我似乎找不到答案。
ridge <- h2o.glm(family= "gamma", link="log", x= X, y=y, alpha=0,
lambda_search=TRUE, training_frame=mydat2, nfolds=0)
lasso <- h2o.glm(family= "gamma", link="log", x= X, y=y, alpha=1,
lambda_search=TRUE, training_frame=mydat2, nfolds=0)
elastic<-h2o.glm(family= "gamma", link="log", x= X, y=y, alpha=0.5,
lambda_search=TRUE, training_frame=mydat2, nfolds=0)
我希望ridge的摘要将某些系数设置为完全等于零,但这并没有发生。弹性模型是唯一包含某些系数零值的模型。
请参阅下面的部分数据集,所有数值协变量均在我的分析中得出结论,响应变量为PriceHouse。
> dput(mydat2)
<environment>
> mydat2
Region Province Municipality PriceHouse Shops Bankruptcies MeanIncome
TaxForms
1 Waals_Gewest Namur La Bruy<0xE8>re 220.00 0 82
32.56414 4583
2 Waals_Gewest Liege Berloz 168.25 0 23
28.95578 1602
3 Waals_Gewest Hainaut Binche 125.00 10 372
22.65488 19383
4 Waals_Gewest Namur Walcourt 146.75 3 190
26.72879 10089
5 Waals_Gewest Liege Baelen 169.50 7 65
26.66545 2341
6 Waals_Gewest Liege B<0xFC>llingen 142.50 1 26
25.81942 2627
HotelRestaurant Industries HealthSocial
1 114 88 19
2 7 9 1
3 139 107 20
4 70 61 13
5 17 27 2
6 45 54 12