在h2o中分配案例权重以在开发数据上构建gbm create overfit?

时间:2017-05-08 05:11:13

标签: h2o gbm weighted-graph

我正在使用h2o构建gbm模型。训练数据随机分为70%的开发数据和30%的及时验证数据。训练数据的不良率为1.4%,我还需要为每次观察分配权重(数据有一个权重列)。观察结果是:与没有重量(VAL)的模型相比,使用重量构建的模型在开发数据(DEV)上具有更高的性能。使用权重构建的模型在开发和及时验证数据之间具有很大的性能差异。例如,具有权重的模型构建显示低于前10%的捕获率

DEV:56%
验证:25%

虽然没有重量的模型构建显示低于前10%的捕获率:

DEV:35%
验证:23%

在这种情况下,似乎使用权重有助于开发和及时验证数据的模型性能。想知道如何在h2o中使用重量?在模型构建中使用权重时,DEV和VAL模型的较大性能差异是否表明gbm模型建筑在h2o中的不稳定性较高?

logloss with and without weight

蓝色曲线是DEV,橙色曲线是VAL>。对于无重量情况,DEV和VAL的​​对数丢失从同一点开始。对于加权情况,DEV和VAL的​​对数丢失从两个不同的点开始。如何解释这个日志丢失图表,为什么h2o gbm中的权重在日志丢失函数输出中创建了这么不同?

0 个答案:

没有答案