我正在尝试将[2015 Smartdoc]数据集转换为Coco格式,以进行关键点检测模型的训练。
带注释的图像示例:
我设法将视频分离为图像帧,并将Xml文件转换为可读的数据帧(下面的标题):
filenames BLx BLy TLx TLy BRx \
107 bg02-datasheet004-f108.jpg 747.202 747.246 798.768 282.74 1166.49
81 bg01-tax005-f82.jpg 943.688 780.389 866.687 199.336 1419.3
98 bg02-tax005-f99.jpg 793.905 805.597 700.141 352.626 1193.37
110 bg03-letter004-f111.jpg 847.724 833.246 704.323 265.949 1282.38
8 bg04-paper003-f9.jpg 1272.54 914.539 602.085 708.123 1291.64
BRy TRx TRy
107 769.731 1152.38 302.87
81 733.315 1276.65 175.882
98 725.98 1044.48 302.232
110 722.944 1097.62 193.975
8 543.293 733.169 348.998
我仅有的标签是每个文档的4个关键点的x,y坐标
我正在考虑从头开始构建json注释格式
以下是我想用于构建数据集的json示例(通过遍历每个图像):
{
"images": [
{
"file_name": filename,
"height": height,
"width": width,
"id": IMG_ID
}
],
"categories": [
{
"supercategory": "paper",
"id": 1,
"name": "paper",
"keypoints": [
"bl","br","tl","tr"
],
"skeleton": [
[1,2],[1,3],[2,4],[3,4]
]
}
],
"annotations": [
{
"segmentation": [[]],
"num_keypoints": 4,
"area": AREA,
"iscrowd": 0,
"keypoints": [BLX,BLY,2,BRX,BRY,2,TLX,TLY,2,TRX,TRY,2],
"image_id": IMG_ID,
"bbox": [xmin, ymin, xmax-xmin, ymax-ymin],
"category_id": 1,
"id": ID
}
]
}
是否有任何有效的方法来构建Coco注释,而不是从头开始创建json?
训练数据集中是否需要区域和分段?使用4个坐标来计算它们是个好主意吗?
我的目标是创建一个可检测文档的4个关键点的模型