h2o.predict()在新测试集上使用哪个阈值?

时间:2018-12-03 04:03:16

标签: r h2o

关于h2o.predict()和h2o.performance()的区别,我已经阅读了几个主题(如下面的链接所示)。

How to interpret the probabilities (p0, p1) of the result of h2o.predict()

有人可以告诉我h2o.predict()使用哪个阈值?是max f1吗?如果是,是训练数据,验证数据还是交叉验证的阈值?

我尝试在测试集上使用max f1max f0point5使用验证阈值(与训练和验证数据完全分开),但是使用h2o.predict()的预测类和使用的类阈值不完全匹配。

我得到的最接近的是使用训练中的max f0point5阈值并将其应用于测试集。

关于h2o.predict的文档很少。另外,是否存在关于阈值的最佳实践,即验证和培训的平均阈值等?

谢谢!

1 个答案:

答案 0 :(得分:2)

以下是当用户运行h2o.predict().predict()时如何选择预测阈值的详细信息:

1)如果仅使用训练数据训练模型-使用训练数据模型指标中的最大F1阈值。

2)如果您使用训练和验证数据训练模型-使用验证数据模型指标中的最大F1阈值。

3)如果使用训练数据训练模型并设置nfold参数-使用训练数据模型指标中的最大F1阈值。

4)如果使用训练数据,验证数据训练模型并设置nfold参数-使用验证数据模型指标中的最大F1阈值。