线性回归与随机森林性能精度

时间:2018-06-26 07:35:47

标签: python data-science

如果数据集包含某些特征,其中一些是分类变量,而另一些则是连续变量,则决策树比线性回归要好,因为树可以根据分类变量准确地划分数据。在任何情况下,线性回归的表现都优于随机森林吗?

2 个答案:

答案 0 :(得分:1)

肯定存在线性回归优于随机森林的情况,但我认为要考虑的更重要的事情是模型的复杂性。

线性模型的参数很少,随机森林的参数更多。这意味着随机森林比线性回归将更容易过度拟合。

答案 1 :(得分:1)

与基于树的模型相比,线性模型的主要优点是:

  • 他们可以推断(例如,如果标签在火车集合中介于1-5之间,则基于树的模型将永远无法预测10,而线性则可以预测)
  • 由于推断可以用于异常检测
  • 可解释性(是的,基于树的模型具有功能重要性,但这只是一个代理,线性模型中的权重更好)
  • 需要更少的数据以获得良好的结果
  • 具有强大的在线学习工具(Vowpal Wabbit),这对于处理具有很多功能(例如文本)的巨型数据集至关重要