我对h2o分布式随机森林模型有一些疑问

时间:2018-04-18 09:13:42

标签: python machine-learning random-forest h2o

根据DRF部分常见问题解答中的H2O文档,this note is mentioned关于“算法在训练期间如何处理缺失值?”常见问题:

  

注意:与GLM不同,在DRF中,数值的处理方式与分类值相同。缺少的值不是用均值推算的,正如GLM默认情况下所做的那样。

我使用DRF算法来解决回归问题,但是当我看到这个音符时,我感到很奇怪。如果我将所有数值转换为分类值来解决回归问题,我认为这是无稽之谈。

这是我的问题。

  • 我是否需要将所有数值转换为分类值才能使用DRF算法?

  • 我是否需要将所有数值转换为分类值才能使用DRF算法?

感谢您阅读我的问题。

1 个答案:

答案 0 :(得分:0)

不,H2O不要求您将所有数值转换为分类值。

如果您想查看经过培训的H2O DRF模型如何处理不同的输入列,请按照以下说明查看MOJO。

请注意,在下图中,数字列用“小于”值比较处理,分类列通过向左子项发送一些级别,向右子项发送一些级别来处理。

enter image description here