Question

我想用自己的图像训练Faster R-CNN网络以检测面部。我已经检查了很多Github库，但这是我经常找到的训练文件的示例：

/data/imgs/img_001.jpg,837,346,981,456,cow
/data/imgs/img_002.jpg,215,312,279,391,cat

但是我找不到如何训练包含几个对象的图像的示例。应该是

1)  /data/imgs/img_001.jpg,837,346,981,456,cow,215,312,279,391,cow

或

2)  /data/imgs/img_001.jpg,837,346,981,456,cow
    /data/imgs/img_001.jpg,215,312,279,391,cow

？

Answer 1

我只是不由自主，quote FarCry3 here：“精神错乱的定义是一遍又一遍地做同样的事情，并期望得到不同的结果。”
（请注意，这纯属娱乐性，并不意味着以任何方式侮辱您；如果我认为不值得的话，我不会花时间回答您的问题）

在第二个示例中，您将提供完全相同的输入数据，但是需要网络学习两种不同的结果。但是，正如您已经提到的，对于许多库来说，每个图像支持多个标签并不是很常见。

通常，这样做纯粹是为了简单起见，因为它要求您更改指标以适应多个输出：现在，您可以有多个“目标”，而不必使用一键编码的目标。

这在对象检测（而不是如前所述的对象分类）任务中更具挑战性，因为您现在必须决定如何表示目标。
如果有可能，我个人会限制自己只为每个图像标记一个类，或者看看另一个支持该类的图像库，因为重写这么多代码的努力可能不值得在结果上进行细微的改进。