在训练强大的级联分类器时要考虑的建议?

时间:2013-07-03 09:31:37

标签: algorithm opencv machine-learning computer-vision classification

我正在训练级联分类器,以便检测图像中的动物。不幸的是,我的假阳性率非常高(使用Haar和LBP超高,使用HOG可接受)。我想知道如何改进我的分类器。

以下是我的问题:

  • 强健检测所需的训练样本量是多少?我读过某个地方需要4000个pos和800个neg样本。这是一个很好的估计吗?
  • 训练样本应该有多么不同?有没有办法量化图像差异,以包含/排除可能的“重复”数据?
  • 我该如何处理被遮挡的物体?我应该只训练可见的动物部分,还是应该选择我的投资回报率以使平均投资回报率保持不变?
  • 重新闭塞的物体:动物有腿,胳膊,尾巴,头等。由于一些身体部位往往被遮挡,选择'躯干'作为投资回报率是否有意义?
  • 我应该尝试缩小图像尺寸并训练较小的图像尺寸吗?这可能会改善一些事情吗?

我愿意接受任何指示!

1 个答案:

答案 0 :(得分:7)

  • 4000 pos - 800 neg是一个糟糕的比例。带有负样本的东西是你需要尽可能多地训练你的系统,因为Adaboost ML algorithm - 所有类似于特征选择过程的核心算法 - 在很大程度上取决于它们。使用4000/10000将是一个很好的增强。
  • 检测“动物”是一个难题。由于您的问题是一个已经NP-hard的决策流程,因此您的分类范围越来越复杂。先从猫开始。有一个检测猫的系统。然后将其应用于狗。有40个系统可以检测不同的动物,并在以后将它们用于您的目的。
  • 对于训练,请勿使用遮挡对象作为正面。即如果你想检测正面,那么只需要改变位置和方向来训练正面,而不要在它前面包括任何其他物体。
  • 降级并不重要,因为haar分类器本身将所有内容缩减到24x24。当你有足够的时间时,观看整个中提琴演讲。
  • 祝你好运。