分类算法训练集的错误

时间:2013-02-28 16:29:22

标签: machine-learning computer-vision classification

我正在寻找一种算法来构建用于对象检测的分类器。分类器将用于通过对象检测交通场景中的汽车的特征。我已经研究了像增强和多实例学习这样的算法,但它们似乎不适合我的情况。我有两个数据集,一个带有正样本,另一个带有负样本,但这些集合包含一小部分错误(<10%)。无法手动删除数据集中的错误,因为我的目标是在线生成数据集而不会受到人为干扰。

所以我的问题是:有没有人知道一个合适的算法(如果存在)用于训练分类器,该分类器可以处理正负训练集中相对较小百分比的错误?

谢谢, 汤姆

1 个答案:

答案 0 :(得分:0)

所有真实世界的数据都会有错误。如果你知道具体的错误,你应该在训练之前过滤它们。捕获这些错误的最佳方法是逐步训练您的分类器。每次添加到语料库并重新训练新分类器时,都应检查精度,召回和F1。如果新分类器的性能变差,您就会知道您在必须退出的工作语料库中添加了一些垃圾。

你绝对不应该把垃圾留在你的语料库中,因为你会杀死你的准确性。如果您从不受信任的来源摄取数据,则可能会故意使用错误数据破坏您的分类器。因此,您应该让某种过滤器或领域专家在将新数据提供给分类器之前查看新数据,以确保您维护金标准语料库。