我不明白"较小的max_feature减少随机森林中过度拟合的部分" ? 此外,随机森林中的装袋是什么意思?
答案 0 :(得分:0)
我会尽力向你解释。您似乎对机器学习算法不熟悉。我相信你知道过度拟合是什么!那么让我解释为什么随机森林很容易发生这种情况。复制此用户回答:https://cs.stackexchange.com/users/30903/kyle-hale,
曾经有一个名叫梅尔的女孩。梅尔每天都和另一个朋友一起玩,每天她都会玩这个晴天,美好的一天。
梅尔和一起玩 周一乔丹, 莉莉周二, 星期三,咪咪,周四的橄榄球......然后
周五梅尔和布莱纳一起比赛,下雨了。这是一场可怕的雷雨!更多天,更多朋友!
梅尔周六跟Kwan一起打球,周日格雷森,
Asa周一......然后
周二,梅尔和布鲁克一起比赛,再次下雨,比以前更糟糕!现在梅尔的妈妈为梅尔决定了她应该和谁一起玩的时间表,所以那天晚上她开始告诉梅尔所有关于她排队的新时间表。 “周三的路易斯,周四的瑞恩,周五的杰米尼,周六的比安卡 - ”
梅尔皱起眉头。 梅尔的妈妈问道,“怎么了,梅尔,你不喜欢比安卡吗?” 梅尔回答说:“哦,当然,她很棒,但每次我和一个名字以B开头的朋友一起玩,都会下雨!”梅尔的回答有什么问题?
嗯,星期六可能不会下雨。
嗯,我不知道,我的意思是,Brianna来了,下雨了,Brooke来了,下雨了......
是的,我知道,但下雨并不取决于你的朋友。
这正是随机森林所发生的情况。当您添加太多由“max_feature”变量表示的功能时,您将非常努力地找到它们不存在的模式,并最终与您过度拟合的现有数据过于精确。当您使用决策树(随机森林)时,您将始终获得最佳匹配,因为您将树分解为分支,并且每个分支将逐字地接受每个特征和每种可能性(如果这是有意义的)。
什么是随机森林中的套袋?您必须首先了解随机森林如何遍历树(它会生成许多树并采用某种平均值)并决定要考虑哪些特征,因此这需要您完全理解它是如何工作的。你可能应该是YouTube。