RCNN与Fast-RCNN算法-如何生成“感兴趣区域”?

时间:2019-06-27 09:22:57

标签: deep-learning computer-vision conv-neural-network faster-rcnn

我从博客文章here中得到了下面的图片,内容十分丰富。

image showing how convolutional neural net is used in fast rcnn

RCNN

在RCNN中,我得到了选择搜索用于选择感兴趣的区域(“建议”),并将这些信息传递到convNet中,该convNet可以任意生成4096维的特征向量。这将传递给SVM,然后进行分类。有道理。

快速RCNN

”,而不是将区域建议输入到CNN,我们将输入图像输入到CNN,以生成卷积特征图。从卷积特征图,我们确定建议区域并将其扭曲成正方形,并使用RoI池层我们将它们重塑为固定大小,以便可以将其馈送到完全连接的层中。”

我分别知道所有这些词;但是像这样把它们放在一起使我感到困惑。对于Fast-RCNN,与选择搜索相反,它的区别是ConvNet似乎用于生成感兴趣区域。这是如何运作的?

我目前的理解在步骤2/3中感到困惑,否则我认为我很好:

  1. 我们有一张图片,并将其提供给CNN。
  2. CNN会像往常一样通过随机初始化一些过滤器来生成过滤器 (并随后根据错误进行调整。)
  3. 在卷积图像堆栈上使用的选择性搜索?
  4. RoI汇集成一个大小。
  5. Softmax层决定分类+ LR以获得边界框。

奖金:为什么RCNN中的特征向量为4096维?只是随机选择的数字?

1 个答案:

答案 0 :(得分:0)

我刚刚读过Ross Girshick的文章“基于区域的卷积网络,用于精确的对象检测和分割”。他部分说 “我们使用CNN从每个区域建议中提取一个固定长度的特征向量。 使用的特定CNN体系结构是系统超参数。我们的大多数实验都使用Krizhevskyetal描述的CNN的Caffe [55]实现.8,但是我们也尝试了Simonyan和Zisserman [24](OxfordNet)的16层深度网络。在两种情况下,特征向量都是4096维的。 通过网络向前传播均值减去后的S×S RGB图像,并读取倒数第二层(就在softmax分类器之前的层)输出的值。对于TorontoNet,S = 227,对于OxfordNet S = 224。到[8],[24],[55]了解更多的网络架构细节。” 这意味着他从两个特例中得出的数字都得出相同的结果