在Python上加载大数据

时间:2013-10-20 15:03:19

标签: python file bigdata

我对数据科学还很陌生,大约两个月前几乎没有开始使用python。我一直在努力做一个有趣的Kaggle比赛(catsVsDogs)来尝试沿途学习东西。但是我在第一步就停了下来。问题是有一个训练集,其中包含大约25000个猫和狗的.jpg图像,总目录大小约为800 MB。每当我尝试将目录加载到python中并将所有图像保存在矩阵中时(假设我们有100个(300,200)大小的图像,我想将它们保存在100 *(60000)大小的矩阵中)我得到一个内存错误或系统只是停止处理。我在mac上使用遮篷。 我一直试图在互联网上阅读很多,并了解人们如何处理这些大图像,但它已经过了一个星期,我仍然找不到任何好的来源。如果有人帮助我,或者只是给我发送描述情况的链接,我将非常感激。 这里是Kaggle比赛的链接(你可以看到没有奖品参与,这只是为了学习): https://www.kaggle.com/c/dogs-vs-cats/data

问题是我如何设法使用冠层将这个大数据集加载到python中并开始训练神经网络。或者一般如何在没有内存错误的情况下在一台计算机上处​​理大数据集。

1 个答案:

答案 0 :(得分:2)

我建议您制作一个您想要阅读的项目的索引(目录列表)。接下来只读取第一个项目,仅使用该项目进行训练,从内存中删除该项目,继续下一个项目,然后重复。在任何给定时间,您都不需要在内存中拥有更多内容。