我想从头开始创建一个基于YOLO的对象检测算法。我较少理解它的工作原理,但仍然无法弄清某些方面:
1)在YOLO中,首先我们有卷积层,输出为S x S x N,其中S是两个维度上的像元数。然后,我们有一个紧密连接的层,另一层是输出,其输出是尺寸为S x S x M的张量,其中M是每个像元的预测数。 我的问题是,由于每个输出单元都与上一个leyer的所有单元相连,因此输出如何知道哪一组M值对应于哪个单元格?
2)我试图分析experiencor提供的implementation。为什么模型中根本没有紧密连接的层?
3)当我要训练对象检测网络时,我是否还应该使用否定示例(无对象的图像,甚至带边界框且无对象的图像)还是仅包含对象的图像?
4)我将检测属于三个分类之一的物体。您认为VGG16网络和大约1000个培训示例就足够了吗?
提前感谢您的每条线索。