我正在处理一个图像分类问题,我应该可以将图像分类为带有矩形表盘的手表/带圆形表盘/鞋子等的手表。
我研究过基于内容的图像检索(使用Dense SIFT进行特征检测,Bag of Words + SVM进行分类),目前我正在研究卷积神经网络(无监督特征学习)。
我的问题是图像是从相机拍摄的照片,因此包含其他元素(训练数据中没有)。例如,我的带有矩形表盘的手表的训练数据仅包含手表,而我的测试图像包含手表和手的一部分,或者我的鞋子的测试图像使鞋子朝向不同的方向(与鞋的训练数据)。
如何解决此问题? CNN(无监督特征学习)是正确的方法还是应该坚持使用D-SIFT + BOW + SVM? 如何收集适当的培训数据?
谢谢