H2O.ai已使用高基数(> 100)的分类变量实施了“直方图和分箱”技术,以实现高效,准确的树构建:http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/gbm-faq/histograms_and_binning.html
在他们的文档中的某些地方,他们引用了一个出版物,其中详细介绍了该方法,但我似乎找不到了-任何人都可以链接到该出版物吗?
鉴于该方法似乎是使用分类变量进行树构建的最先进方法,因此已经发布了-除H2O.ai之外,真的没有其他实现吗?
在sklearn中,此功能已在github上酝酿了多年,但显然仍未推出。
我之前在数据科学领域问过一个问题:https://datascience.stackexchange.com/questions/40241/histogram-and-binning-technique-for-categorical-variables-publication-and-impl