Question

使用autoML生成aml排行榜后，我跑了

h2o.predict(aml@leader, test_df)

但我怎么知道它使用的排行榜上的哪个型号？如果我想访问排行榜上任何模型的结构或超参数，我该怎么办？

除了测试集的结果不如验证集上的结果好，它是否常见 - 我是错误地使用它还是有过度拟合的倾向？

还想更好地了解它的基础设施，在h2o.init将数据传输到h2o.ai集群中的服务器之后，还是在我的本地笔记本电脑上完成所有事情？

感谢。

Answer 1

它使用“领导者”模型，它是排行榜上的＃1模型，按ML任务的默认度量排名（二元分类，多类分类，回归）。领导者型号ID在此处：aml@leader@model_id。

存储在aml@leader的领导者模型只是一个常规的H2O模型，因此如果您想查看所使用的参数，请查看aml@leader@parameters以了解您设置的参数，或{{ 1}}表示所有参数值（包括您未手动设置的参数值）。

aml@leader@allparameters用于通过提前停止来调整各个模型，因此与测试错误相比，验证错误总是过于乐观，这将是对泛化错误的良好估计。

第三个问题超出了这篇文章的范围，但无论如何我都会回答它。当您使用H2O并使用validation_frame启动群集时，您将在笔记本电脑上本地运行所有内容。如果您在其他地方启动H2O群集（例如Amazon EC2或您自己的远程服务器），则可以使用h2o.init()参数将该服务器的IP地址传递给h2o.init()命令以连接到它并且计算将在该远程计算机上运行。无论哪种方式，服务器完全在您的控制之下 - H2O.ai没有“H2O Cloud”进行远程处理。

哪个模型是h2o.predict（aml @ leader，test_df）使用？

1 个答案: