在随机森林方法中,对于每棵树,我们随机选择一组固定大小的变量(特征)。但是,一旦针对该特定树冻结了该集合,该树的行为是否像常规决策树算法一样?
我假设随机森林只不过是产生了一堆经典的“决策树”并将他们的选票投向最终分类。但在许多地方,我读到的任何描述似乎都表明了这一点;对于森林内的给定决策树,即使在每个节点,我们也会随机选择变量。是这样的吗?
这是否意味着在树中的每个节点处,我们从为该树固定的变量集中随机选择m个变量?或者从训练数据集的全局变量集?然后从选定的变量集中我们启发式地选择1个变量(例如,哪个变量最大化信息增益) - 这是一个正确的陈述吗?
答案 0 :(得分:0)
"在随机森林方法中,对于每棵树,我们随机选择一组固定大小的变量(特征)。但是,一旦该集合被冻结为该特定树,该树的行为就像常规决策树算法一样#34;
没有
"我假设随机森林只不过是产生了一堆经典的决策树'并将他们的选票投向最终分类。但在许多地方,我读到的任何描述似乎都表明了这一点;对于森林内的给定决策树,即使在每个节点,我们也会随机选择变量。是这样的吗?"
是
"是否意味着在树中的每个节点上,我们从变量集中随机选择m个变量,该变量是为该树固定的?
这有点令人困惑,这是假设还有另一个更大的子集保留给那个可以选择m的树吗?如果不是这个假设,我认为这实际上是在询问树是否为每个节点生成了相同的随机选择特征集,答案是否定的。
在随机森林中,每个节点都会进行特征随机化。因此,如果总共有100个预测变量,则对于树中的每个节点,随机选择10个子集(比如说)并评估最佳分割。请注意,在生成树的整个过程中,每个节点中的树的数量保持不变。
希望这有帮助。