我正在使用H2O分析数据集,但是我不确定如何正确地对数据集执行交叉验证。我有一个不平衡的数据集,因此我想执行分层交叉验证(如果使用输出变量来平衡每个分区上的组)。
但是,最重要的是,我还有一个问题,我的许多行都是重复的(一种实现权重而实际上没有权重的方法)。独立于此问题的源头,我之前已经看到过,在某些情况下,如果必须将某些行保持在一起,则可以进行交叉验证。这似乎是fold_column的用法。但是,不可能同时做这两者吗?
如果没有H2O解决方案,该如何计算先验倍数并将其用于H2O?
答案 0 :(得分:1)
基于H2O-3 docs,此操作无法完成:
请注意,所有三个选项仅适用于i.i.d的数据集。如果数据集需要自定义分组以执行有意义的交叉验证,则应创建并提供fold_column。
一个快速的想法是使用weights_column
而不是复制行。然后balance_classes
和weights_column
都可以作为参数
GBM,DRF,深度学习,GLM,朴素贝叶斯和AutoML。
否则,我建议遵循在R或H2O中对数据执行的工作流程,以实现折页分配和折页之间重复项的一致性:
foldId
列,将每个集合分成N个折叠:这实现了分层的折叠rbind
)一起退回