随机森林中的套袋和max_feature

时间:2017-09-16 10:28:40

标签: scikit-learn random-forest

我不明白"较小的max_feature减少随机森林中过度拟合的部分" ? 此外,随机森林中的装袋是什么意思?

1 个答案:

答案 0 :(得分:0)

我会尽力向你解释。您似乎对机器学习算法不熟悉。我相信你知道过度拟合是什么!那么让我解释为什么随机森林很容易发生这种情况。复制此用户回答:https://cs.stackexchange.com/users/30903/kyle-hale

曾经有一个名叫梅尔的女孩。梅尔每天都和另一个朋友一起玩,每天她都会玩这个晴天,美好的一天。

梅尔和

一起玩 周一乔丹,

莉莉周二,

星期三,咪咪,

周四的橄榄球......然后

周五梅尔和布莱纳一起比赛,下雨了。这是一场可怕的雷雨!

更多天,更多朋友!

梅尔周六跟Kwan一起打球,

周日格雷森,

Asa周一......然后

周二,梅尔和布鲁克一起比赛,再次下雨,比以前更糟糕!

现在梅尔的妈妈为梅尔决定了她应该和谁一起玩的时间表,所以那天晚上她开始告诉梅尔所有关于她排队的新时间表。 “周三的路易斯,周四的瑞恩,周五的杰米尼,周六的比安卡 - ”

梅尔皱起眉头。

梅尔的妈妈问道,“怎么了,梅尔,你不喜欢比安卡吗?”

梅尔回答说:“哦,当然,她很棒,但每次我和一个名字以B开头的朋友一起玩,都会下雨!”

梅尔的回答有什么问题?

嗯,星期六可能不会下雨。

嗯,我不知道,我的意思是,Brianna来了,下雨了,Brooke来了,下雨了......

是的,我知道,但下雨并不取决于你的朋友。

这正是随机森林所发生的情况。当您添加太多由“max_feature”变量表示的功能时,您将非常努力地找到它们不存在的模式,并最终与您过度拟合的现有数据过于精确。当您使用决策树(随机森林)时,您将始终获得最佳匹配,因为您将树分解为分支,并且每个分支将逐字地接受每个特征和每种可能性(如果这是有意义的)。

什么是随机森林中的套袋?您必须首先了解随机森林如何遍历树(它会生成许多树并采用某种平均值)并决定要考虑哪些特征,因此这需要您完全理解它是如何工作的。你可能应该是YouTube。