我正在使用VisDrone数据集来训练MobileNet-YOLOV3。数据集包含大小为960 x 540 P,1920 x 1080 P等的图像以及每个图像的注释文件。但是,当我训练YOLO模型时,它将所有图像的大小调整为416 x 416 P,这会导致在训练和测试过程中丢失一些小物体。还有一个问题是,当调整大小时,注释可能是错误的,因为调整大小后的图像的边框必须不同。
所以我的问题是如何同时调整这些图像以及相关注释的大小或裁剪?每个图像都有.txt和.xml批注文件。
另一种解决方案是将每个图像裁剪并转换为2到4个新图像,并根据旧注释相应地创建新注释。可以从一张图像中裁剪4张图像,但是可以根据裁剪区域将一个原始注释文件转换为新的4个注释文件吗?
答案 0 :(得分:0)
在调整Pascal VOC数据集的大小时,我遇到了同样的问题。 我使用了这个git repo: https://github.com/italojs/resize_dataset_pascalvoc 而且效果很好。
还有另一个Python库:https://pypi.org/project/pascal-voc-tools/ 这不仅仅是调整大小,还可以进行其他图像处理并更新注释文件。