在我对h2o的研究之后,我发现h2o.randomForest可以处理变量中的缺失值,这与R randomForest包不同。
请参阅http://h2o.ai/blog/2014/04/sjsu-tutorial-h2o-random-forest/
但是,在到处寻找之后,我似乎无法找到h2o.randomForest如何处理完全缺失的值? R gbm()包处理missin值有多相似?
对于上述2个问题的任何帮助将不胜感激。
谢谢,
答案 0 :(得分:0)
您可以参考H2O文档,了解DRF算法在各种情况下如何处理缺失值: http://h2o-release.s3.amazonaws.com/h2o/rel-slater/5/docs-website/h2o-docs/index.html#Data%20Science%20Algorithms-DRF-FAQ
就R的GBM而言,他们创造了准备好处理NA的树木。换句话说,它明确地将NA作为一种特殊情况处理。 R&G的GBM实际上将NAs作为特例处理并为它们构建树枝:左,右,NA是每个决策的结果。
希望这有帮助!
主治医生