我一直在使用随机森林和决策树模型,并且我已经读到“ maxBins”参数用于对数值变量进行分区以对变量排序(请参阅:https://spark.apache.org/docs/2.2.0/mllib-decision-tree.html)。 我需要了解此参数的工作原理,因为我认为文档中的信息不够好。
该文档说:“对大型分布式数据集进行特征值排序很昂贵。此实现通过对数据的采样部分执行分位数计算来计算近似的候选分组。有序拆分会创建“ bins”和最大值可以使用maxBins参数指定此类垃圾箱的数量。“
但是最终如何使用垃圾箱拆分变量?
我想知道maxBins如何与任何简单的示例一起工作。 谢谢!