h2o.ai Platt Scaling calibration

时间:2017-09-12 08:59:46

标签: h2o calibration

我注意到h2o.ai套件的相对较新的添加,能够执行补充Platt Scaling以改进输出概率的校准。 (参见calibrate_model in h2o manual。)然而,在线帮助文​​档可能很少提供指导。特别是我想知道是否启用了Platt Scaling:

  • 它如何影响模特'排行榜中?也就是说,是在排名指标之后还是之前计算的平台比例?
  • 它如何影响计算性能?
  • calibration_frame可以与validation_frame相同还是不应该(在计算或理论的观点下)?

提前致谢

1 个答案:

答案 0 :(得分:2)

校准是模型完成后运行的后处理步骤。因此,它不会影响排行榜,也不会影响培训指标。它在得分帧上增加了2列(带有校准预测)。

This article提供了如何构建校准框架的指导:

  1. 将数据集拆分为测试和训练
  2. 将火车组拆分为模型训练和校准。
  3. 它还说: 最重要的一步是创建一个单独的数据集来执行校准。

    我认为校准框架应仅用于校准,因此与验证框架不同。保守的答案是它们应该是分开的 - 当您使用验证框架进行早期停止或任何内部模型调整(例如在H2O GLM中进行lambda搜索)时,验证框架将成为“训练数据”的扩展,因此它是一种那时禁区。但是你可以尝试两个版本并直接观察效果是什么,然后做出决定。以下是该文章的一些额外指导:

    “用于校准的数据量取决于您可用的数据量。校准模型通常只适合少量参数(因此您不需要大量数据)我的目标是大约10%的训练数据,但至少至少50个例子。“