我有一张图片让我们说其中有3个物体:一辆汽车,一个自行车和一只狗。是否可以通过在同一图像中隔离和检测所有三个单词来实现单词包?
答案 0 :(得分:0)
一袋视觉词只是一种重新表现特征的方法。可以使用其中一种池化技术来组合这些新表示。 现在,如果图像中有多个对象,则应在图像的新表示中对其进行编码“池的输出”。检测这些对象是多标签分类器的工作。
请注意:稀疏编码已被证明比BoW更好。使用稀疏编码,您可以使用基于稀疏的分类器来检测多个对象的出现。基于稀疏的分类器分析稀疏表示的不同部分的稀疏性,以找出图像中的对象