关于h2o.predict()和h2o.performance()的区别,我已经阅读了几个主题(如下面的链接所示)。
How to interpret the probabilities (p0, p1) of the result of h2o.predict()
有人可以告诉我h2o.predict()使用哪个阈值?是max f1
吗?如果是,是训练数据,验证数据还是交叉验证的阈值?
我尝试在测试集上使用max f1
和max f0point5
使用验证阈值(与训练和验证数据完全分开),但是使用h2o.predict()的预测类和使用的类阈值不完全匹配。
我得到的最接近的是使用训练中的max f0point5
阈值并将其应用于测试集。
关于h2o.predict的文档很少。另外,是否存在关于阈值的最佳实践,即验证和培训的平均阈值等?
谢谢!
答案 0 :(得分:2)
以下是当用户运行h2o.predict()
或.predict()
时如何选择预测阈值的详细信息:
1)如果仅使用训练数据训练模型-使用训练数据模型指标中的最大F1阈值。
2)如果您使用训练和验证数据训练模型-使用验证数据模型指标中的最大F1阈值。
3)如果使用训练数据训练模型并设置nfold参数-使用训练数据模型指标中的最大F1阈值。
4)如果使用训练数据,验证数据训练模型并设置nfold参数-使用验证数据模型指标中的最大F1阈值。