我的任务是在实时视频流中以80%以上的精度检测杂货店的16000个类别。在所有的互联网上搜索,我发现有关检测大量类的工作几乎一无所获。从数学的角度来看,我知道创建具有如此大的非线性的函数几乎是不可能的,因为需要大量的神经元和层来实现这种非线性。
但是以某种方式训练YOLO9000并可以实时检测9000多个类。另外,我在文章Instagram's Shopping tags上也遇到过。从那以后,我相信可以用相当数量的百分比来执行任务。
无论如何,我进入Tensorflow Object Detection API,采用了在coco数据集上预先训练的ssd模型。将8h视频切成照片,为tfrecords创建xml,并使用新的类训练模型。我参加了50堂课,每堂课手工制作了大约1-20张照片,以某种方式我得到了结果。我的计算能力是具有12 GB GPU的AWS p2.xlarge实例。
任何建议都很好:)。