当运行随机森林时,它不会在单个变量中允许超过32个级别,因为它会产生2 ^ n个数据组合/分区。我认为它将遵循n!/ k!(n-k)的经典组合方程!为n选择k。谁能解释为什么会这样?例如,如果我在一个变量中有4个级别,它将分区为2 ^ 4 = 16,我怀疑它应该是16/4 = 4。
我怀疑这是由于决策树内的递归分区构成了更大的随机森林。
答案 0 :(得分:2)
我相信你已经混淆了两个案例。您正在查看“我可以从一组 n 项目中选择一个给定数字 k 的项目有多少种?”实际问题是“我可以从 n 项目中选择一组项目的方式有多少?”
第二个问题是第一个解的求和,k = 0到n。 这个总和是2 ^ n。
另一种看待它的方法是在您选择的集合中是否存在任何给定元素。每个元素有两个选项,我们总共有2 ^ n个可能性。
这是一个例子:让我们来看看{1,2,3,4}集。
案例1:从这个集合中选择k = 2个元素有多少种方法?
1 2
1 3
1 4
2 3
2 4
3 4
确实,这是4! /(2!2!)= 6种可能性
但是,当我们查看k的所有值的总分区时,我们得到
. . . . (empty set)
4
3
3 4
2
2 4
2 3
2 3 4
1
1 4
1 3
1 3 4
1 2
1 2 4
1 2 3
1 2 3 4
这是2 ^ 4 = 16个选择。注意,这也是对k:1 + 4 + 6 + 4 + 1
的不同值的求和