机器学习 - 培训步骤

时间:2010-05-04 00:53:35

标签: matlab image-processing machine-learning computer-vision

当您在Adaboost算法的训练数据中使用类似Haar的功能时,如何构建数据集?你真的必须找到数以千计的正面和负面样本吗?必须有一种更有效的方法来做到这一点......

我正在尝试用matlab(而不是面孔)分析图像,这对图像处理来说相对较新。

4 个答案:

答案 0 :(得分:4)

是的,您确实需要许多正面和负面样本进行培训。对于Adaboost来说尤其如此,Adaboost通过反复重新采样训练集来工作。很多样品就足够了很难说。但通常情况下,越多越好,因为这会增加训练集具有代表性的机会。

另外,在我看来,你对效率的追求是错误的。提前完成训练,大概是离线训练。这是培训结束后对未知实例进行分类的效率,人们通常会担心。

答案 1 :(得分:0)

毫无疑问,更多的数据,更多的信息,更好的结果。您应该包含尽可能多的信息。但是,您可能需要注意的一件事是正设置与负设置的比率。对于逻辑回归,比率不应该超过1:5,对于adaboost,我不确定结果,但它肯定会随着比率而变化(我之前尝试过)。

答案 2 :(得分:0)

是的,我们需要许多积极和消极的样本进行培训,但收集这些数据非常繁琐。但是你可以通过拍摄视频而不是图片并使用ffmpeg将这些视频转换为图片来轻松实现。它将使培训部分更容易。

答案 3 :(得分:0)

获得相同的正面和负面样本的唯一原因是避免偏见。有时您可能会获得高准确度,但它完全无法对一个类别进行分类。为了评估这些方法,精确度/召回比准确性更有用。