我正在使用CoreML训练自己的动物模型。读取Apple Docs it says
每个标签至少要为训练集使用10张图像,但是更多 总是更好。另外,平衡每个标签的图像数量。对于 例如,不要为Cheetah使用10张图像,为Elephant使用1000张图像。
我正在使用python script来为每个数据集下载多达1000张图像(1000头熊,1000头猎豹,1000头大象等)。我注意到有时我会得到400幅图像,另一幅图像700幅,另一幅图像900幅,等等。
animals
-bears (402 pics)
-cheetahs (810 pics)
-elephants (420 pics)
-lions (975 pics)
-tigers (620 pics)
-zebras (793)
要通过终端下载图像,请输入:
// python image_download_python2.py <query> <number of images>
python image_download_python2.py 'elephants' '1000'
因为它会返回一些包含400个图像的数据集,另一些包含700个图像,另一些包含900个图像的数据集,这仍将被视为“平衡”,或者在运行python时我需要设置下限500脚本,以便所有内容都能徘徊在500张左右的图像上?
python image_download_python2.py 'elephants' '500'
我非常确定我将始终获得至少400张图像。
请记住,文档显示更多图片总是更好
每个标签至少要为训练集使用10张图像,但是更多 总是更好。
另一方面,当数据集没有像苹果公司的10头猎豹和1000头大象的例子那样平衡时,CoreML模型在训练时会发生什么?