我目前面临处理大型数据集的问题,由于google colab提供的空间有限(37 GB),我无法将数据集直接下载到google colab中,我已经进行了一些研究,而且似乎取决于我们分配的GPU,对于某些人来说,磁盘上的可用空间可能更多。 所以我的问题是,我可以将数据集下载到服务器(例如Google Cloud)上,然后再从服务器上加载它。 数据集大约为20 GB,为什么37 GB不够,是因为当您下载一个zip文件时,它需要提取文件,因此需要额外的20 GB,但是如果我在服务器上下载并提取文件,我只会在Google colab上使用20 GB, 任何其他建议都值得欢迎,我的最终目标是找到一种解决方案,使模型可以在coco数据集上进行训练。
答案 0 :(得分:0)
另一种方法可能是仅将annotations file上传到Google Colab。无需下载图像数据集。我们将使用PyCoco API。接下来,在准备图像时,您可以使用URL读取图像文件,而不是从云端硬盘/本地文件夹访问图像文件!
# The normal method. Read from folder / Drive
I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))
# Instead, use this! Url to load image
I = io.imread(img['coco_url'])
此方法将为您节省大量空间,下载时间和精力。但是,在训练过程中您将需要可以正常工作的Internet连接以获取图像(因为您正在使用colab,所以您当然可以拥有它)。
如果您有兴趣进一步探索COCO数据集,可以查看my post on medium。