我正在使用Apple's MLKit来训练食物模型。它说
每个标签至少要为训练集使用10张图像,但是更多 总是更好。另外,平衡每个标签的图像数量。 请勿将10张图片用于猎豹,将1000张图片用于大象。
我用图像刮板刮擦了所有不同种类的食物和美食,总共有成千上万张分布在300个文件夹中的图像(这300张图像全部位于一个主文件夹中)。我已经手动检查了每个文件夹中的每个图像(花了几天时间),然后根据它们的食物类型或美食对它们进行了排序,例如意大利,非洲,美国,巴西,水果,牛排,海鲜,甜品,香蕉,草莓,面包,冰淇淋等。
问题在于每个文件夹中的图像数量从100张图像到1000张图像不等,大多数似乎有400-700张(情况类似于Don’t use 10 images for Cheetah and 1000 images for Elephant
)。我认为没有必要手动浏览每个文件夹并尝试删除x张图像以平衡所有内容,而不必通过cli来实现。
我不担心会删除哪些图像,我只希望每个文件夹尽可能地平衡,以便在训练食物模型时数据尽可能准确。
我该怎么做?