我是深度学习的新手。在注释我的对象之前,我应该使用哪些预处理步骤。 我有一个大小为640 * 360的图像数据集。我想在任何背景的视频中连续检测到这个对象。 就像我应该裁剪对象然后annot?或者我应该使用整个图像而不是特定的对象?
答案 0 :(得分:-1)
所以你提到了两种方法。
是。这是一个简单的选择。裁剪后,您应该能够使用滑动窗口技术搜索测试图像。但请记住,这个过程非常昂贵。
你应该看一下名为R-CNN的论文。它的方法非常相似。 论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf?spm=5176.100239.blogcont55892.8.pm8zm1&file=Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
这是最近的方式,您可以让模型自己了解主题是什么以及它在给定图像中的位置。通常,您将拥有一个图像和每个对象的[x坐标,y坐标,高度,宽度]等注释。应对该模型进行培训,以尽可能接近地生成这些输出。
对于多个对象,您需要一个名为ROI池的图层。这在https://deepsense.ai/region-of-interest-pooling-explained/
中有解释