CNTK语义对象检测?

时间:2017-01-24 20:48:01

标签: python cntk

所以有Kitti格式,数字使用。这在此处记录:https://github.com/NVIDIA/DIGITS/blob/master/digits/extensions/data/objectDetection/README.md#label-format

从这里的示例:https://github.com/Microsoft/CNTK/blob/master/Examples/Image/Regression/RegrSimple_CIFAR10.cntk看起来好像我需要堆叠反序列化来完成目标。好的,所以这对于每个图像的1个对象类是有用的,但是对于每个图像我有许多对象或一组已知对象的实例呢?

我认为有必要转向类似Kitti的格式。这目前存在吗?有没有办法堆叠反序列化器来做到这一点?由于它目前与回归样本一致,我将无法在多个边界框输出中创建一组共享的特征提取器(更多的原因不仅仅是标签,而只是关注这里的标签)。

问题很可能出现,为什么我不使用快速RCNN演示?因为它使用ROI并且ROI被发送用于分类,所以问题在于我的对象类根据它们在图像中的位置以及它们周围的语义而改变。然后,快速RCNN将这些框合并为主预测。这对我的情况不起作用。

谢谢!

编辑 - 关于前进的思考 也许我只需要一个完整的文本解串器......

| File1Path node1 node2 node3 node4

| File2Path node1 node2 node3 node4

现在问题就变成了如果每个文件中都有n个对象?快速R-CNN具有这种类型的复杂场景。它是否只是在每个类的前4个之后堆叠接下来的4个节点,如下面的那些?

| File1Path x1 y1 x2 y2 x21 y21 x22 y22

现在,如果我这样做,那么问题是,读者如何知道这是哪个文件?

文件名是否成为我想的序列ID?

FilePath1 | apple x1 y1 x2 y2 x21 y21 x22 y22 | banana x1 y1 x2 y2

FilePath2 | orange x1 y1 x2 y2 x21 y21 x22 y22 | banana x1 y1 x2 y2

我认为以上就是我需要的,我想的问题是,在python中是否有类似这样的格式的示例阅读器?快速R-CNN目前只在大脑脚本中。我认为我可以做的是将整个输入卷积特征映射提供给ROI提议,这将产生一个语义对象检测网络,无论我想要什么。

1 个答案:

答案 0 :(得分:0)

您能否认为您的数据类似于language understanding tutorial中显示的数据,其中某些标签可以稀疏编码,例如苹果,香蕉和橙子。并非所有文件路径都具有全部三个。建议您参考教程以获取见解。