我正在学习随机森林回归模型。我知道它形成许多Trees(模型),然后我们可以通过平均所有Trees的结果来预测目标变量。我对决策树回归算法也有一定的了解。我们如何形成最佳数量的树木?
例如,我有一个数据集,可以预测人的薪水,而我只有两个输入变量,即“经验年数”,“绩效得分”,那么我可以使用这种数据集形成多少棵随机树?随机林树是否取决于输入变量的数量?任何良好的榜样将不胜感激..
预先感谢
答案 0 :(得分:0)
决策树在整个数据集中训练模型,并且仅创建一个模型。在随机森林中,将创建多个决策树,并通过限制行数和特征在数据子集上训练每个决策树。就您而言,您只有两个功能,因此该模型将在数据子集上创建和训练数据。
您可以为数据创建任意数量的随机树。通常在随机森林中,更多的树可带来更好的性能,但也会增加计算时间。实验数据,看看不同数量的树之间的性能变化。如果性能保持不变,则使用较少的树以加快计算速度。您可以为此使用网格搜索。
您还可以尝试其他ml模型,例如线性回归,这可能在您的情况下效果很好。