使用列进行交叉验证折叠

时间:2020-04-28 06:32:46

标签: python machine-learning h2o

我有一个数据集,包含超过100k行和大约1k列,其中包括binary classification预测问题的目标列。我在H2O中使用python GBM(最新的3.30xx),具有5倍交叉验证和80-20次火车测试拆分。我注意到,H2O会自动对其进行分层,这很好。我的问题是,我有一个产品的整个数据集,其中有一些子产品作为单独的列或组。这些子产品中的每一个都有5k至10k行的合理大小,因此最好检查一下我认为的每个产品的单独模型。我正在寻找是否可以指定此子产品组在H2O模型培训中进行交叉验证。目前,在进行火车测试拆分时,我正在遍历这些子产品,因为根据目前为止我阅读的文档,我尚不清楚如何进行此拆分。我可以在H2O中使用任何选项来直接将此子产品列用于交叉验证吗?这样,我就不必控制脚本中的所有模型输出。
我希望问题清楚。如果没有,请告诉我。谢谢。

1 个答案:

答案 0 :(得分:0)

fold_column选项有效,文档中提供了一些简短的示例: http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2o.grid.H2OGridSearch