我注意到h2o.ai套件的相对较新的添加,能够执行补充Platt Scaling以改进输出概率的校准。 (参见calibrate_model
in h2o manual。)然而,在线帮助文档可能很少提供指导。特别是我想知道是否启用了Platt Scaling:
calibration_frame
可以与validation_frame
相同还是不应该(在计算或理论的观点下)?提前致谢
答案 0 :(得分:2)
校准是模型完成后运行的后处理步骤。因此,它不会影响排行榜,也不会影响培训指标。它在得分帧上增加了2列(带有校准预测)。
This article提供了如何构建校准框架的指导:
它还说: 最重要的一步是创建一个单独的数据集来执行校准。
我认为校准框架应仅用于校准,因此与验证框架不同。保守的答案是它们应该是分开的 - 当您使用验证框架进行早期停止或任何内部模型调整(例如在H2O GLM中进行lambda搜索)时,验证框架将成为“训练数据”的扩展,因此它是一种那时禁区。但是你可以尝试两个版本并直接观察效果是什么,然后做出决定。以下是该文章的一些额外指导:
“用于校准的数据量取决于您可用的数据量。校准模型通常只适合少量参数(因此您不需要大量数据)我的目标是大约10%的训练数据,但至少至少50个例子。“