我使用H2O建立和比较模型,但是我想知道是否有一项功能可以让我以分层的方式将数据分为训练和测试?
我知道对于交叉验证,存在fold_assignment选项,并且我会使用它。
我的问题更多是关于数据的操作以及何时需要在构建任何模型之前将其拆分。
我看过这个page,但是它没有指定是否对分类进行分层拆分。
也许对于分类问题是隐式的,并且总是可以实现分层拆分?
答案 0 :(得分:0)
将数据拆分为“训练/测试/验证”,其中训练占70%,测试和验证各占15%
train,test,valid = prostate_df.split_frame(ratios=(.7, .15))