在使用GLM lambda搜索的交叉验证时,您需要注意什么?

时间:2017-08-29 21:33:53

标签: glm cross-validation h2o

关于h2o.glm lambda search not appearing to iterate over all lambdas,我读到这个问题是抱怨lambda太高了;他们尝试设置early_stopping=F,希望能解决这个问题" bug"。

原来的行为是一个功能,而不是一个错误的情况吗?如果这是正确的,那么在使用GLM交叉验证时应始终使用early_stopping=T,否则交叉验证的误差估计是无用的;你也有过度适应的风险。

(我的主要问题是,如果我对GLM和CV一起工作的方式的理解是正确的;但是如果在使用lambda_search和交叉验证时还有其他需要注意的话,我会感兴趣。)

1 个答案:

答案 0 :(得分:2)

H2O的glm与lambda搜索和交叉验证应始终根据交叉验证选择最佳lambda并在返回(主)模型中使用它。早期停止选项应该对选定的lambda没有影响。其目的是跳过lambda的模型的计算>最好的,因为主模型不需要它们(我们仍然计算lambdas的模型<最好,因为它允许使用热启动并充分利用强有力的规则)。

我认为将early_stopping设置为false的行为应该计算所有lambdas的模型,以防用户想要查看它们/进行自定义模型选择。