应用错误收集

对于在这种情况下实际学习像素到像素值的情况下使用哪种模型，我一点也不感到困惑。

任何想法都是可以理解的。谢谢！

我已经尝试过Inception，Resnet等模型。

使用较少的火车数据（每个班级300-400）可以达到良好的召回率/准确性/ F1得分。

由于数据集很小，您可能想研究迁移学习，您可以做的是使用转移的ResNet模型作为特征提取器，然后尝试YOLO（仅查看一次）算法，逐一检查窗口（使用ConvNets的“滑动窗口”实现）来获取皮带扣，并据此对图像进行分类。

根据我对数据集的理解，尽管您将需要根据YOLO算法的要求重新注释数据集，但要执行上述方法。

编辑：如果您使用XML注释的数据集，并且需要将其转换为csv以遵循上述示例，请使用https://github.com/datitran/raccoon_dataset

建模愉快。