应用错误收集

我正在处理一个图像分类问题，我应该可以将图像分类为带有矩形表盘的手表/带圆形表盘/鞋子等的手表。

我研究过基于内容的图像检索（使用Dense SIFT进行特征检测，Bag of Words + SVM进行分类），目前我正在研究卷积神经网络（无监督特征学习）。

我的问题是图像是从相机拍摄的照片，因此包含其他元素（训练数据中没有）。例如，我的带有矩形表盘的手表的训练数据仅包含手表，而我的测试图像包含手表和手的一部分，或者我的鞋子的测试图像使鞋子朝向不同的方向（与鞋的训练数据）。

如何解决此问题？ CNN（无监督特征学习）是正确的方法还是应该坚持使用D-SIFT + BOW + SVM？如何收集适当的培训数据？

谢谢