我正在研究Faster R-CNN,有些事情正在困扰我。
在original paper中(在推理实现的详细信息中),他们裁剪了超出图像边界的图像。
例如,Caffe中的BoundingBox转换: https://caffe2.ai/docs/operators-catalogue.html#bboxtransform
还接受im_info
张量,该张量用于裁剪生成的锚点。
我不明白的是:为什么im_info
必须是张量?不能是一对(img_w, img_h)
吗?
我的意思是,假定4D张量中的所有3D图像都具有相同的尺寸。为什么要使用张量为每个图像指定每个尺寸?
我掌握了不同的Faster R-CNN实现(例如this),但没有找到这个问题的答案。
感谢您的回复, 朱塞佩