我使用H2O进行了二进制分类。我只是简单地将我的训练分为3个,分别是训练,校准和测试。经过培训和校准后,我检查了测试仪上的结果。这里是对应的部分:
final_grid = H2OGridSearch(model=H2OGradientBoostingEstimator(model_id = 'contract_gbm2',
stopping_rounds = 5, stopping_tolerance = 1e-4, seed = 23,
stopping_metric = "AUC",balance_classes = True,
max_runtime_secs=300, calibrate_model=True, calibration_frame=valid,
nfolds = 5),
hyper_params=hyper_params_gbm,search_criteria=search_criteria)
我注意到的是,预测的类别和给定的概率并不总是一致的。见下文:
可以看出,预测不是基于最高概率来确定的吗?我想念什么?
答案 0 :(得分:2)
阈值为max-F1,而不是0.5。
当然,如果您不喜欢该阈值,则可以将p1与您喜欢的任何阈值进行比较。