应用错误收集

时间：2017-06-07 11:19:07

标签： image-processing conv-neural-network

我已经看过很多用于ID图像的CNN代码示例，但它们通常与目标关系的1对1输入相关（如MNISt手写数字集），而且大多数都是为输入图像和训练图像使用相似的图像尺寸（像素）。

那么......在一个图像中识别多个对象的常用方法是什么？（像几个人，或任何其他相对复杂的场景）。我经常看到它做得很好，但没有看到提到的设计方法。这是否需要某种类型的预处理，还是可以由CNN直接处理？

答案 0 :(得分：2)

我想说从图像中检索多个对象的最着名的技术系列是 Detection 系列。

使用 Detection ，基本思路是在图像中有一个或多个不同大小和比例的 Proposal 窗口，使用计算或随机算法阵列生成。

对于每个 Proposal 窗口，然后执行 Classification 算法以显示图像的特定区域代表什么。

下一步通常是运行合并流程，将所有相邻区域合并为一个单独的分类输出。

注意： None 类通常也用于表示未找到特定类的区域。