我无法弄清楚如何准备与MS COCO数据集一起使用的数据。我目前正在保存TFRecord
中的所有数据。对于每条记录,我需要保存jpeg数据以及所有注释。对于每个图像,最多可以有~20个注释,对于每个注释,python列表中可以有多个多边形。
例如,我遍历所有分段,然后将其保存在TFRecord
中。
obj = { 'annotation/' + str(imgNb) + '/seg/' + str(_key): _float_feature(segmentations[_key]) for _key in range(len(segmentations))}
这样做的问题是我最终得到了可变长度TFRecord
s。当我想致电parse_single_example
时,我需要发送一个feature_map,但我不知道注释的确切数量。假设最坏的情况,feature_map
需要相当大。
我也尝试用JSON文件保存它,但我仍然需要使用parse_single_example
来解析JSON,所以我仍然遇到了初始问题。
所以问题是:
我应该创建一个非常大的feature_map
并在每个训练步骤中检查哪些是空的,或者我应该尝试处理注释'在将数据保存到TFRecord
之前的数据(将其转换为图像,这会产生一些非常大的文件,但我猜这可能是可行的)?或者有更好的方法吗?
感谢任何帮助或见解! 谢谢!
答案 0 :(得分:0)
你可能会更好(1)将所有注释作为相同的特征或(2)始终将所有特征放在所有示例中,但为缺少的值留下空值。