h2o中可自定义的交叉验证(取决于训练集的功能)

时间:2018-02-22 18:59:47

标签: r cross-validation h2o

我有一个模型,其中一些输入要素是根据训练数据集计算的(例如,值的平均值或中值)。我正在尝试对此模型执行n次交叉验证,但这意味着这些特征的值将根据为每个折叠选择用于训练/验证的样本而不同。有没有办法在h2o(我在R中使用它)或许传递一个功能,一旦训练集确定后计算这些功能?

这似乎是一个非常直观的功能,但我还没有找到任何类似开箱即用的文档。它存在吗?如果是这样,有人能指出我的资源吗?

1 个答案:

答案 0 :(得分:3)

在H2O中使用内置交叉验证时无法做到这一点。如果H2O是用纯R或Python编写的,那么很容易扩展它以允许用户传入一个函数来在交叉验证循环中创建自定义功能,但是H2O的核心是用Java编写的,所以自动编写从R或Python转换任意用户定义的函数,首先转换为REST调用然后转换为Java并不是一件容易的事。

相反,您需要做的是编写一个循环来自己进行交叉验证并计算循环中的功能。

听起来你可能正在进行目标编码(或类似的东西),如果是这种情况,你会对这个PR感兴趣,在H2O中添加目标编码。在讨论中,我们讨论了您遇到的同一问题。