使用autoML生成aml排行榜后,我跑了
h2o.predict(aml@leader, test_df)
但我怎么知道它使用的排行榜上的哪个型号?如果我想访问排行榜上任何模型的结构或超参数,我该怎么办?
除了测试集的结果不如验证集上的结果好,它是否常见 - 我是错误地使用它还是有过度拟合的倾向?
还想更好地了解它的基础设施,在h2o.init将数据传输到h2o.ai集群中的服务器之后,还是在我的本地笔记本电脑上完成所有事情?
感谢。
答案 0 :(得分:2)
它使用“领导者”模型,它是排行榜上的#1模型,按ML任务的默认度量排名(二元分类,多类分类,回归)。领导者型号ID在此处:aml@leader@model_id
。
存储在aml@leader
的领导者模型只是一个常规的H2O模型,因此如果您想查看所使用的参数,请查看aml@leader@parameters
以了解您设置的参数,或{{ 1}}表示所有参数值(包括您未手动设置的参数值)。
aml@leader@allparameters
用于通过提前停止来调整各个模型,因此与测试错误相比,验证错误总是过于乐观,这将是对泛化错误的良好估计。
第三个问题超出了这篇文章的范围,但无论如何我都会回答它。当您使用H2O并使用validation_frame
启动群集时,您将在笔记本电脑上本地运行所有内容。如果您在其他地方启动H2O群集(例如Amazon EC2或您自己的远程服务器),则可以使用h2o.init()
参数将该服务器的IP地址传递给h2o.init()
命令以连接到它并且计算将在该远程计算机上运行。无论哪种方式,服务器完全在您的控制之下 - H2O.ai没有“H2O Cloud”进行远程处理。