随机森林回归

时间:2019-08-20 09:11:38

标签: regression random-forest decision-tree

我正在尝试了解随机森林以进行回归。我已经阅读了很多,但是仍然很难理解。我的理解是:随机森林对来自多个决策树的答案求平均。每个决策树都是使用不同的样本和不同的功能子集构建的。 但是,有些事情我还是不太了解。

  1. 如果我是对的,则使用节点拆分算法构建树。拆分节点是否有不同的算法是否正确?例如,我已经阅读了有关信息增益和减少标准偏差的信息。
  2. 在决策树的每个节点上是否仅考虑一项功能是真的吗?
  3. 从我的阅读中,我了解到决策树通过最小化隔离误差的总和以分段线性方式拟合数据。它是否正确?那么每个拟合的零件实际上是不是“正常的”(多维)线性回归?
  4. 随机森林如何进行预测?我了解到训练模型时,最终并不会获得要素系数的值。

希望有人可以更清楚地说明这一点!

2 个答案:

答案 0 :(得分:0)

  1. 是的,信息增益和基尼系数是两种常见的分类方法,但是对于回归分析,对于前MSS,通常使用方差度量。
  2. 对一个变量进行分割,但是选择变量是随机的,并且取决于mtry参数(功能袋)。
  3. 以某种方式。
  4. 每棵树根据新观测值落在叶子上的位置做出自己的预测,整体预测是所有树的平均值。

答案 1 :(得分:0)

  1. 是的,有不同的节点分离标准(Gini,信息增益,熵等)。选择哪种标准并没有多大关系(您可以证明它们在所有非病理分布上本质上都是相同的) ,并且倾向于生成大致相同的拆分)。与其他超参数(例如,每个节点的最小样本数,类权重等)相比并不重要。
  2. 不完全是。在树的构造过程中,每个节点都会考虑大多数(或所有)候选特征,但最终每个节点仅获得一个特征(根据分裂准则,最佳特征以及候选特征集)并将其暴露在外)。
  3. 多件事:
    • 最小化平方误差之和不能保证输出将具有正态分布。当输出恰好具有正态分布时,这是最佳损失函数,即它使输出误差最小。通常,它可以作为损失函数运行,并且比MAE更好;上交所惩罚异常值并表现得“平稳”。
    • 除了平方误差之和外,还可以使用其他损失函数。您可以使用RMSE,logloss,MAE等。
    • 从概念上讲,您可以将树或子树视为穷人对(连续)回归变量的分段近似。有一种明显的张力,即较浅的树木会给您带来不连续性,但较深的树木往往会过度拟合。本质上,我们仅从多个变量构造一个粗略的近似值,树的构造(即节点分解标准函数)告诉我们我们最需要的。
  4. 要使用树进行评估(做出预测),对于每个输入样本,只需将节点从根节点移到叶节点,如下所示。
    • 是的,RF没有像线性回归那样的系数。但是,它确实具有功能重要性,它可以告诉您(总的来说)哪些功能在所有树木中的使用频率很高。
    • 但是要当心从线性回归直接解释系数。这有它的警告(相关性等)。