我有一个非常不平衡的数据集用例,我对训练数据集采样不足, 并尝试在h2o中运行automl,但是它给了我很好的AUC结果(超过0.99),但是给我aup_pr结果非常糟糕(0.09)。 与失衡问题有关吗? 我跑过weight_column选项(http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/weights_column.html) 但这没有帮助。 我应该改用balance_classes选项(当我同时运行两个选项时,均失败,并显示“ h2oFrame is empty”消息)。 训练和测试按日期时间范围划分,并且测试数据集在多数和少数类别之间具有适当的比例。
答案 0 :(得分:0)
正如您所建议的,AUC和AUCPR之间的巨大差异很可能是由班级失衡引起的。您可以尝试设置balance_classes = True
或将权重设置为一列,以使少数群体类别获得更大的权重,例如取班级频率的倒数。如果您对少数派的观察数量很少,则可以尝试使用例如SMOTE。