是否可以在Computer Vision任务中检测16k类?

时间:2018-07-22 21:05:46

标签: python tensorflow computer-vision

我的任务是在实时视频流中以80%以上的精度检测杂货店的16000个类别。在所有的互联网上搜索,我发现有关检测大量类的工作几乎一无所获。从数学的角度来看,我知道创建具有如此大的非线性的函数几乎是不可能的,因为需要大量的神经元和层来实现这种非线性。

但是以某种方式训练YOLO9000并可以实时检测9000多个类。另外,我在文章Instagram's Shopping tags上也遇到过。从那以后,我相信可以用相当数量的百分比来执行任务。

无论如何,我进入Tensorflow Object Detection API,采用了在coco数据集上预先训练的ssd模型。将8h视频切成照片,为tfrecords创建xml,并使用新的类训练模型。我参加了50堂课,每堂课手工制作了大约1-20张照片,以某种方式我得到了结果。我的计算能力是具有12 GB GPU的AWS p2.xlarge实例。

其中一张训练有素的图片 **One of the trained images**

结果 **One of the images as results**

  1. 请评估是否可以完成以及原因。
  2. 可以预期的真实准确性吗?
  3. 我可以使用自己的计算能力执行此任务吗?还是需要更多?

任何建议都很好:)。

0 个答案:

没有答案