我从博客文章here中得到了下面的图片,内容十分丰富。
在RCNN中,我得到了选择搜索用于选择感兴趣的区域(“建议”),并将这些信息传递到convNet中,该convNet可以任意生成4096维的特征向量。这将传递给SVM,然后进行分类。有道理。
”,而不是将区域建议输入到CNN,我们将输入图像输入到CNN,以生成卷积特征图。从卷积特征图,我们确定建议区域并将其扭曲成正方形,并使用RoI池层我们将它们重塑为固定大小,以便可以将其馈送到完全连接的层中。”
我分别知道所有这些词;但是像这样把它们放在一起使我感到困惑。对于Fast-RCNN,与选择搜索相反,它的区别是ConvNet似乎用于生成感兴趣区域。这是如何运作的?
我目前的理解在步骤2/3中感到困惑,否则我认为我很好:
奖金:为什么RCNN中的特征向量为4096维?只是随机选择的数字?
答案 0 :(得分:0)
我刚刚读过Ross Girshick的文章“基于区域的卷积网络,用于精确的对象检测和分割”。他部分说 “我们使用CNN从每个区域建议中提取一个固定长度的特征向量。 使用的特定CNN体系结构是系统超参数。我们的大多数实验都使用Krizhevskyetal描述的CNN的Caffe [55]实现.8,但是我们也尝试了Simonyan和Zisserman [24](OxfordNet)的16层深度网络。在两种情况下,特征向量都是4096维的。 通过网络向前传播均值减去后的S×S RGB图像,并读取倒数第二层(就在softmax分类器之前的层)输出的值。对于TorontoNet,S = 227,对于OxfordNet S = 224。到[8],[24],[55]了解更多的网络架构细节。” 这意味着他从两个特例中得出的数字都得出相同的结果