应用错误收集

如何结合两种基于深度学习的分类器

时间：2018-03-13 01:38:19

标签： computer-vision deep-learning classification

我希望有一个基于CNN的主分类器和一个类似的图像区域的二级分类器。

两个分类器将用于图像区域。我需要在主要区域使用第一个分类器，而辅助分类器用于辅助区域，并且将用于支持第一个分类器做出的决策以及进一步的证据。

因此，主图像区域和辅助图像区域将用于一次推断一个类别标签。

现在有哪些其他方式或架构可以执行此类任务，而不是ROI Pooling？

理想情况下，我希望有一个类似于本文的分类器方案，但不使用ROI Pooling。

https://arxiv.org/pdf/1505.01197.pdf

2 个答案:

答案 0 :(得分：0)

您可以查看此https://arxiv.org/pdf/1611.10012.pdf，其中包含对最近检测体系结构的全面调查。基本上有3个元架构，所有模型都属于以下类别之一：

更快 - RCNN：与您引用的论文类似，这是fast-rcnn的改进版本，它不使用选择性搜索并直接将提议生成集成到称为区域提案网络（rpn）的网络中。
RFCN：在架构上类似于1，除了roi池的执行方式不同，称为位置敏感的roi池。
SSD：修改Faster-rcnn中的rpn以直接输出类概率，从而无需像roi池中那样进行per-roi计算。这是最快的架构类型。 Yolo属于这种架构。

我认为根据您所引用的论文的粗略阅读，类型3是您正在寻找的。然而，就实现而言，实现等式3可能有点棘手，即您可能需要停止将渐变反向传播到区域（或至少考虑它如何影响最终结果），这些区域不会与主区域重叠这种架构类型计算整个图像的概率。

我还注意到实际上没有主要/次要“分类器”。该论文描述了主要/次要“区域”，主要区域是包含人的区域（即使用人物检测器首先找到主要区域）。次要区域是与主要区域重叠的区域。对于活动分类，只有一个分类器，除了主要区域承载更多权重，次要区域每个对最终预测得分贡献一点。

答案 1 :(得分：0)

Yaw Lin的回答中包含了大量的信息，我只是建立在他上一段所说的内容之上。我认为你想要做的事情的本质并不是独立处理人和背景并比较结果（这清楚地说明了你所做的事情），而是首先处理背景并从中推断出您对主要地区的期望。一旦您有了一些期望，您就可以将主要区域与最重要的期望进行比较。

例如，从你的Arxiv链接中的图1（b），如果你可以处理背景并确定它在人口密集的地区户外，那么你可以集中很多概率密度函数这个人在社交户外活动中做了什么，在你处理你感兴趣的数字之前，更有可能进行慢跑。相比之下，如图1（a）所示，如果你能处理背景并告诉他们如果它在室内并且包含计算机，那么您可以将概率集中在单独的室内计算机活动上，从而在计算机上工作的概率飙升，并且＃34;