我所学到的关于弱学习者的一切(特别是与AdaBoost相关)说他们必须有错误< 1/2用于任何训练数据的分配。我想我一定是误解了这个,所以如果有人能指出下面我逻辑中的缺陷,我将不胜感激:
假设一个弱学习者错误分类了一个例子(称之为x)。然后,考虑在该示例x上具有100%权重并且在每个其他示例上具有0%权重的分布。显然,弱学习者对于该分布将具有1的误差,其> 1。 1/2。通过我对定义的理解,这意味着它并不是一个真正弱的学习者。因此,如果弱学习者甚至错误地分类了单个样本数据,那么它就不会出现错误<任何分布的1/2。但这意味着一个弱小的学习者必须是完美的,我知道这一点无视整个弱势学习者群体的整体观点,而且只是疯狂的谈话。
所以,我必须误解弱学习者出现错误的含义<任何分布的1/2。什么"任何"实际上是什么意思?
答案 0 :(得分:1)
在2类问题中,随机学习者将错误= 0.5。在实践中,这是最糟糕的错误,因为您可以将具有超过0.5个错误的每个学习者编辑为恰好相反 - 意味着相反的学习者错误将是1-(第一个学习者的错误)。 此外,在一个示例中测量误差是非常有问题的,并且可能无法正确表示真实误差。 因此,如果最差的误差是0.5(正如我们所看到的那样,我们可以让任何学习者的误差小于0.5),那么每个弱学习者的提升需要更高的准确度,以便将它们组合在一起并且"提升&#34 ;