当我使用labelImg(https://github.com/tzutalin/labelImg)在对象周围绘制边界框以输出注解.xml文件时,它会给出边界框的坐标。我使用这些注释将其输入到tensorflow中的对象检测模型(ssd_mobilenet_v1_coco和fast_rcnn_resnet101_coco)中。预测的输出(xmin,ymin,xmax,ymax)为0-1。
我的注解.xml中的输入是否被标准化为0-1?我想知道这一点,因为我想通过将基本事实和预测的边界框输入到我自己的IOU函数中来获得IOU。谢谢
答案 0 :(得分:0)
基本上,如果为模型提供tf.record文件,则该文件包含图像和边界框的规范化坐标。因此,从.xml文件转换为tf.record文件也将使边框坐标标准化。
您模型的输出也将在归一化坐标中。您可以通过乘以图片大小轻松地缩放它们的大小:
x_min_abs = x_min_rel * image_width
x_max_abs = x_max_rel * image_width
y_min_abs = y_min_rel * image_height
y_max_abs = y_max_rel * image_height