如何确定ada boost中弱分类器的数量

时间:2014-04-12 23:02:47

标签: machine-learning computer-vision artificial-intelligence classification

我想问一个问题: 您在ada boost分类算法中使用了多少弱分类器。例如,如果我有许多功能,例如使用haris,hog,sift等特征检测器获得的8000个特征,我通常如何确定这个nr特征的弱分类器的数量。我想过为每种类型的特征使用1个弱分类器并以这种方式进行加权求和。我担心它可能会过度适应......

2 个答案:

答案 0 :(得分:1)

要获取模型的参数,您应该进行交叉验证。

如果数据库的大小允许(您有足够的样本),您可以拆分学习集以获得验证集。交叉验证以这种方式工作:您只学习~75%的学习集,然后将评分测试到剩余的~25%。然后,您可以针对参数的不同值执行此操作,并选择导致最高分数的值。

如果您的数据库大小不允许,您可以进行k-fold交叉验证(我不会在这里解释,但您可以在维基百科上查找)。

Scikit-learn实现了一个名为gridsearch的工具,如果你为它提供正确的东西,它将“自动”执行。

http://scikit-learn.org/stable/modules/grid_search.html

答案 1 :(得分:0)

为了满足我的要求,弱学习者的最大数量可以等于最大数量的特征,最小数量可以通过实验确定,或者你可以尝试AdrienNK建议