使用哪种深度学习模型来捕获图像中的次要特征?

时间:2019-01-23 06:38:40

标签: machine-learning deep-learning computer-vision transfer-learning

我所在的班级与其他班级的功能稍有不同: 前-此图片有扣(将其视为一类)https://6c819239693cc4960b69-cc9b957bf963b53239339d3141093094.ssl.cf3.rackcdn.com/1000006329245-822018-Black-Black-1000006329245-822018_01-345.jpg

但是此图像与它非常相似,但是没有扣: https://sc01.alicdn.com/kf/HTB1ASpYSVXXXXbdXpXXq6xXFXXXR/latest-modern-classic-chappal-slippers-for-men.jpg

对于在这种情况下实际学习像素到像素值的情况下使用哪种模型,我一点也不感到困惑。

任何想法都是可以理解的。 谢谢!

我已经尝试过Inception,Resnet等模型。

使用较少的火车数据(每个班级300-400)可以达到良好的召回率/准确性/ F1得分。

1 个答案:

答案 0 :(得分:0)

由于数据集很小,您可能想研究迁移学习,您可以做的是使用转移的ResNet模型作为特征提取器,然后尝试YOLO(仅查看一次)算法,逐一检查窗口(使用ConvNets的“滑动窗口”实现)来获取皮带扣,并据此对图像进行分类。

根据我对数据集的理解,尽管您将需要根据YOLO算法的要求重新注释数据集,但要执行上述方法。

要查看上述方法的示例,请访问https://mc.ai/implementing-yolo-using-resnet-as-feature-extractor/

编辑:如果您使用XML注释的数据集,并且需要将其转换为csv以遵循上述示例,请使用https://github.com/datitran/raccoon_dataset

建模愉快。