我手头的假设任务是能够从单个上面的几何未变形饮料罐的图片中给出其分类(例如品牌和饮料名称)。不需要细分。分类功能的输入只是一个视图,一个视图,来自任何一方的罐头。数据集应该很大,大约有2000种不同的饮料。罐头都有相同的尺寸。对于训练,每个罐旋转几百次以包括几乎任何角度。
任何想法最好的方法是什么?对我来说,这似乎是一个纹理识别问题,其中对象本身的形状是无关紧要的。分类也应该很快,因此排除了模板匹配。如果有人可以为我指出正确的方向,那将是一个巨大的进步。我想出的任何想法似乎都非常适合这项任务。本地功能(SIFT / SURF)等?太一般了。品牌可以在他们生产的不同饮料上使用相同的标识。神经网络?罐头在不同的侧面可能看起来非常不同,如果它们都映射到相同的标签,将会弄乱培训。一袋字?用于训练SVM的HOG /颜色直方图等?一些完全不同的东西我不知道也许我不知道?
答案 0 :(得分:0)
一种好的方法是模拟罐的形状,因此您可以将纹理和罐中的标签映射到平面矩形。从这里你可以使用低分辨率版本或基于高斯金字塔的模板匹配进行模板匹配,以实现快速匹配。
第二个选项是提取此“平面化”图像的SIFT或SURF关键点,并尝试在训练集中找到相应的点。虽然相同的徽标或文本可能出现在几个不同的罐头上,但您可以使用关键点的位置来区分罐头。