我正在使用 CNTK 快速R-CNN 的实现(在github上发布)。
选择性搜索没有给我好的区域提案,所以我写了一些更适合我的数据的东西(我正在处理扫描文件)。我的任务是在文档中识别WaterMarks并在它们周围绑一个紧凑的盒子。扩展 CNTK 对象检测教程以识别水平对齐的WaterMarks非常简单,给我不错的准确性。虽然网络使用AlexNet的cov权重(转移学习),但它似乎很好地概括了包含文本的图像。现在我遇到了识别旋转的WaterMarks(在任意程度上旋转)的问题。
我对这个问题有几个问题:
"开箱即用" 回归头输出4 numbers -> (topX, topY, width, height)
;
然而,该表示不允许旋转矩形。我知道在创建地面实况框时,我必须绘制旋转的矩形以及旋转区域提议。我以什么方式改变网络架构来预测这样的盒子? 5 numbers -> (topX, topY, width, height, angle)
:类似于cv2.minAreaRect()
功能? 8 numbers -> (x1, y1, x2, y2, x3, y3, x4, y4)
?
如果这是一个微不足道的问题我很抱歉,但是我无法解决这个问题。
算法是否甚至关心对象是否旋转?我是否比它应该更难?我已经读过其他人有目的地应用图像增强(改变比例和旋转)以获得更健壮的模型。当这种增强完成时,模型能够识别并绑定感兴趣对象周围的紧密旋转矩形/正方形吗?