可可注释:准备要培训的关键点数据框

时间:2019-10-28 22:54:47

标签: python deep-learning data-annotations keypoint

我正在尝试将[2015 Smartdoc]数据集转换为Coco格式,以进行关键点检测模型的训练。

带注释的图像示例:

enter image description here

我设法将视频分离为图像帧,并将Xml文件转换为可读的数据帧(下面的标题):

                      filenames      BLx      BLy      TLx      TLy      BRx  \
107  bg02-datasheet004-f108.jpg  747.202  747.246  798.768   282.74  1166.49   
81          bg01-tax005-f82.jpg  943.688  780.389  866.687  199.336   1419.3   
98          bg02-tax005-f99.jpg  793.905  805.597  700.141  352.626  1193.37   
110     bg03-letter004-f111.jpg  847.724  833.246  704.323  265.949  1282.38   
8          bg04-paper003-f9.jpg  1272.54  914.539  602.085  708.123  1291.64   

         BRy      TRx      TRy  
107  769.731  1152.38   302.87  
81   733.315  1276.65  175.882  
98    725.98  1044.48  302.232  
110  722.944  1097.62  193.975  
8    543.293  733.169  348.998 

我仅有的标签是每个文档的4个关键点的x,y坐标

我正在考虑从头开始构建json注释格式

以下是我想用于构建数据集的json示例(通过遍历每个图像):

{
  "images": [
    {
      "file_name": filename,
      "height": height,
      "width": width,
      "id": IMG_ID
    }
  ],
    "categories": [
        {
            "supercategory": "paper",
            "id": 1,
            "name": "paper",
            "keypoints": [
                "bl","br","tl","tr"
            ],
            "skeleton": [
                [1,2],[1,3],[2,4],[3,4]
            ]
        }
    ],
    "annotations": [
        {
            "segmentation": [[]],
            "num_keypoints": 4,
            "area": AREA,
            "iscrowd": 0,
            "keypoints": [BLX,BLY,2,BRX,BRY,2,TLX,TLY,2,TRX,TRY,2],
            "image_id": IMG_ID,
            "bbox": [xmin, ymin, xmax-xmin, ymax-ymin],
            "category_id": 1,
            "id": ID
        }
    ]
}

是否有任何有效的方法来构建Coco注释,而不是从头开始创建json?

训练数据集中是否需要区域分段?使用4个坐标来计算它们是个好主意吗?

我的目标是创建一个可检测文档的4个关键点的模型

0 个答案:

没有答案