我拥有各种机构的数据,因此某些机构比其他机构提供了更多的领域。这些额外的数据字段似乎与我们试图预测的二进制结果高度相关,因此忽略它们不是一种选择。此外,我们也不想建立研究所特定的模型。
我们正在考虑的选择之一是将机构价值作为特征包括在内,即一个模型将其视为主要用于拆分的特征。因此,如果我们想象一个基于树的模型,那么每个机构都可以在一个模型中得到它自己的树。
我们如何强制某个功能成为主要的拆分功能?
答案 0 :(得分:1)
这不是使用H2O的基于树的算法可以做的事情,并且这些算法不是为用户决定分割哪个功能而设计的-这是该算法为您解决的问题。
从H2O-3用户指南中:
DRF如何确定要分割的功能? 它在列和级别上拆分,从而最大程度地减少了子树在该点上的平方和(RSS)。它考虑了算法中所有可用的字段。请注意,对列采样和行采样的任何使用都会导致每个决策都不会考虑所有数据点,并且这是为了生成更可靠的树。为了找到最佳水平,直方图合并过程用于快速计算每个可能拆分的潜在MSE。 bin的数量通过nbins_cats(用于分类),一对nbins(用于构建直方图的bin的数量,然后在最佳点进行拆分)和nbins_top_level(用于构建根级别的最小bin数量)进行控制。直方图)。然后,此数量将每级减少2倍。
对于nbins_top_level,更高=更精确,但可能更容易过度拟合。更高的内存还需要更多的内存,并且可能需要更长的运行时间。
(GBM和随机树也一样,您可以在这里查看:http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/drf.html#extremely-randomized-trees)