为实现一般化,每类需要多少个图像才能对用于ASL HandSign分类的Resnet-50模型进行微调(24类)?我每个班级大约有600张图片,该模型拟合得非常差。
答案 0 :(得分:1)
我无法给您提供电话号码,而是您自己找到电话的方法。该技术正在绘制一个称为“ 学习曲线”的图形,其中x轴是训练样本的数字,y轴是分数。您从1个训练样本开始,然后增加到600。您绘制了两条曲线:训练误差和测试误差。然后,您可以看到没有任何其他更改的更多数据将对结果有多大影响。
更多详细信息和my masters thesis, section 2.5.4中的下图:
在此示例中,您可以看到每个新示例最多包含20个训练样本,这极大地提高了测试分数(绿色曲线下降很多)。但是在那之后,仅将更多数据用于该问题将无济于事。
根据您的情况,曲线看起来会有所不同,但是原理应该相同。
请参阅我的硕士论文的第2.5和2.6章。我特别建议您看看混淆矩阵和confusion matrix ordering。这将使您了解哪些类是混淆的。也许这些类天生就很难区分?也许可以添加更多功能?也许有标签错误?有关更多“也许”的内容,请参阅第2.5章