我想用自己的图像训练Faster R-CNN网络以检测面部。我已经检查了很多Github库,但这是我经常找到的训练文件的示例:
/data/imgs/img_001.jpg,837,346,981,456,cow
/data/imgs/img_002.jpg,215,312,279,391,cat
但是我找不到如何训练包含几个对象的图像的示例。应该是
1) /data/imgs/img_001.jpg,837,346,981,456,cow,215,312,279,391,cow
或
2) /data/imgs/img_001.jpg,837,346,981,456,cow
/data/imgs/img_001.jpg,215,312,279,391,cow
?
答案 0 :(得分:0)
我只是不由自主,quote FarCry3 here:“精神错乱的定义是一遍又一遍地做同样的事情,并期望得到不同的结果。”
(请注意,这纯属娱乐性,并不意味着以任何方式侮辱您;如果我认为不值得的话,我不会花时间回答您的问题)
在第二个示例中,您将提供完全相同的输入数据,但是需要网络学习两种不同的结果。但是,正如您已经提到的,对于许多库来说,每个图像支持多个标签并不是很常见。
通常,这样做纯粹是为了简单起见,因为它要求您更改指标以适应多个输出:现在,您可以有多个“目标”,而不必使用一键编码的目标。
这在对象检测(而不是如前所述的对象分类)任务中更具挑战性,因为您现在必须决定如何表示目标。
如果有可能,我个人会限制自己只为每个图像标记一个类,或者看看另一个支持该类的图像库,因为重写这么多代码的努力可能不值得在结果上进行细微的改进。