我已经看过很多用于ID图像的CNN代码示例,但它们通常与目标关系的1对1输入相关(如MNISt手写数字集),而且大多数都是为输入图像和训练图像使用相似的图像尺寸(像素)。
那么......在一个图像中识别多个对象的常用方法是什么? (像几个人,或任何其他相对复杂的场景)。我经常看到它做得很好,但没有看到提到的设计方法。这是否需要某种类型的预处理,还是可以由CNN直接处理?
答案 0 :(得分:2)
我想说从图像中检索多个对象的最着名的技术系列是 Detection 系列。
使用 Detection ,基本思路是在图像中有一个或多个不同大小和比例的 Proposal 窗口,使用计算或随机算法阵列生成。
对于每个 Proposal 窗口,然后执行 Classification 算法以显示图像的特定区域代表什么。
下一步通常是运行合并流程,将所有相邻区域合并为一个单独的分类输出。
注意: None 类通常也用于表示未找到特定类的区域。