Faster R-CNN中的裁剪张量

时间:2018-10-10 07:17:59

标签: machine-learning deep-learning computer-vision caffe pytorch

我正在研究Faster R-CNN,有些事情正在困扰我。

original paper中(在推理实现的详细信息中),他们裁剪了超出图像边界的图像。

例如,Caffe中的BoundingBox转换: https://caffe2.ai/docs/operators-catalogue.html#bboxtransform

还接受im_info张量,该张量用于裁剪生成的锚点。

我不明白的是:为什么im_info必须是张量?不能是一对(img_w, img_h)吗?

我的意思是,假定4D张量中的所有3D图像都具有相同的尺寸。为什么要使用张量为每个图像指定每个尺寸?

我掌握了不同的Faster R-CNN实现(例如this),但没有找到这个问题的答案。

感谢您的回复, 朱塞佩

0 个答案:

没有答案