我有一个项目需要在类似动漫的风格vedios中检测到人
我刚刚在GTX 1050TI中使用COCO测试了YOLOv3 608x608
然而速度只有大约1.5FPS,但我的项目需要1050TI至少10 FPS
1.我想知道类的数量是否会影响检测速度? (我假设COCO是关于在图片中找到80种物体?如果我只需要找到一种物体,它会快80倍吗?)
2.当我输入用于训练的图像时,原始图像是1920 * 1080,我应该在标记和训练之前将它们调整为608x608吗?
3.我应该使用任何标签工具吗?在https://github.com/AlexeyAB/darknet <x> <y> <width> <height>
的README.md似乎需要手动计算和输入,这似乎太难了,也许有一个工具我只需要裁剪对象在图像中的位置?
4.如果对象不是图像中的正方形,YOLO如何知道哪个部分是对象?如何避免将训练背景作为对象?
我是否必须删除所有背景并将其填充为黑色,仅将对象保留在图像中?
5.输出总是一个盒子?我可以训练并获得输出作为面具吗?如果我检测到为掩码,它会慢一点,因为它似乎是更多的信息吗?
6.为了获得好的结果,我应该制作多少训练图像和测试图像?
我知道这只是简历中的一些菜鸟问题,但是我真的想知道这一点而不花费数周时间进行培训并自己找到答案,我们将非常感谢答案!
答案 0 :(得分:0)
3
https://en.wikipedia.org/wiki/List_of_manual_image_annotation_tools
您应该能够通过使用一些图像注释工具来获得角坐标的输出。
4
对于具有不同背景的足够图像进行训练,据推测该模型应该能够忽略背景。黑色背景仍然是背景。我想这是一种数据增强,因此它可能有助于减少过度拟合。
5
如果它不支持开箱即用的掩码,可能你想做背景减法作为处理输出的额外步骤。
答案 1 :(得分:0)
1)在我看来,GTX 1050Ti还不足以测试YOLO v3。因为,与先前版本相比,YOLO v3的模型尺寸(即,层数)变得非常大。在这种情况下,课程数量无关紧要。如果您想要快速测试计算速度,则应该像1070Ti一样升级GPU。
2)无论输入图像的大小如何,都会将其大小调整为预定义的大小(强制显示为cfg文件),因此您无需调整输入图像的大小。
答案 2 :(得分:0)
1)我认为这可能会影响速度,因为使用较少的类会在每个YOLO层之前(在.cfg文件中进行设置)会得到较少的卷积过滤器,但是它不可能是80倍加速 2)也许?我的意思是,YOLO会在训练和测试时调整它们的大小,所以也许我真的愿意,但是以我的经验,高分辨率图像通常效果更好。 3)我喜欢OpenLabelling(您可以在Google上搜索它,它在GitHub上) 4)您可能想提供其中没有任何东西的YOLO负片图像,以防止它们在没有任何东西的背景上拾取 5)YOLO不做口罩 6)每堂课大概一千左右,你可以得到500,但是经验法则是,越多越好。
如果您有兴趣,我已经在YouTube的YOLO上发布了整个系列,因此您可能想查看一下:https://youtu.be/TP67icLSt1Y