我对如何与预先训练的Caffe模型实际交互有一些疑问。在我的情况下,我使用了scene recognition的模型。
在caffe git存储库中,Python和C ++中有一些关于Image Classifiers实现的代码示例。但是,这些不适用于我的用例(因为它们只将输入图像分类为ONE类)。
我的目标是获取输入图像(jpg)并为输入图像中的每个像素输出最高预测类标签(e.i.,天空,海滩,道路,汽车的索引)。
有人能给我一些关于如何进行的指示吗?
似乎已经存在这样的实现。这个演示(http://places.csail.mit.edu/demo.html)就像我一样。
谢谢!
答案 0 :(得分:1)
您所寻找的不是图像分类,而是语义分割。
Jonathan Long,Evan Shelhamer和Trevor Darrell最近的作品以Caffe为基础,可以找到here。它使用完全卷积网络,即没有"InnerProduct"
层仅卷积层的网络,因此能够为不同大小的输入产生不同大小的输出。