我对数据科学还很陌生,大约两个月前几乎没有开始使用python。我一直在努力做一个有趣的Kaggle比赛(catsVsDogs)来尝试沿途学习东西。但是我在第一步就停了下来。问题是有一个训练集,其中包含大约25000个猫和狗的.jpg图像,总目录大小约为800 MB。每当我尝试将目录加载到python中并将所有图像保存在矩阵中时(假设我们有100个(300,200)大小的图像,我想将它们保存在100 *(60000)大小的矩阵中)我得到一个内存错误或系统只是停止处理。我在mac上使用遮篷。 我一直试图在互联网上阅读很多,并了解人们如何处理这些大图像,但它已经过了一个星期,我仍然找不到任何好的来源。如果有人帮助我,或者只是给我发送描述情况的链接,我将非常感激。 这里是Kaggle比赛的链接(你可以看到没有奖品参与,这只是为了学习): https://www.kaggle.com/c/dogs-vs-cats/data
问题是我如何设法使用冠层将这个大数据集加载到python中并开始训练神经网络。或者一般如何在没有内存错误的情况下在一台计算机上处理大数据集。
答案 0 :(得分:2)
我建议您制作一个您想要阅读的项目的索引(目录列表)。接下来只读取第一个项目,仅使用该项目进行训练,从内存中删除该项目,继续下一个项目,然后重复。在任何给定时间,您都不需要在内存中拥有更多内容。