哪个模型是h2o.predict(aml @ leader,test_df)使用?

时间:2017-08-14 16:15:17

标签: machine-learning h2o

使用autoML生成aml排行榜后,我跑了

h2o.predict(aml@leader, test_df) 

但我怎么知道它使用的排行榜上的哪个型号?如果我想访问排行榜上任何模型的结构或超参数,我该怎么办?

除了测试集的结果不如验证集上的结果好,它是否常见 - 我是错误地使用它还是有过度拟合的倾向?

还想更好地了解它的基础设施,在h2o.init将数据传输到h2o.ai集群中的服务器之后,还是在我的本地笔记本电脑上完成所有事情?

感谢。

1 个答案:

答案 0 :(得分:2)

它使用“领导者”模型,它是排行榜上的#1模型,按ML任务的默认度量排名(二元分类,多类分类,回归)。领导者型号ID在此处:aml@leader@model_id

存储在aml@leader的领导者模型只是一个常规的H2O模型,因此如果您想查看所使用的参数,请查看aml@leader@parameters以了解您设置的参数,或{{ 1}}表示所有参数值(包括您未手动设置的参数值)。

aml@leader@allparameters用于通过提前停止来调整各个模型,因此与测试错误相比,验证错误总是过于乐观,这将是对泛化错误的良好估计。

第三个问题超出了这篇文章的范围,但无论如何我都会回答它。当您使用H2O并使用validation_frame启动群集时,您将在笔记本电脑上本地运行所有内容。如果您在其他地方启动H2O群集(例如Amazon EC2或您自己的远程服务器),则可以使用h2o.init()参数将该服务器的IP地址传递给h2o.init()命令以连接到它并且计算将在该远程计算机上运行。无论哪种方式,服务器完全在您的控制之下 - H2O.ai没有“H2O Cloud”进行远程处理。