无法加载我的数据集以在Google Colab上训练我的模型

时间:2020-04-15 20:10:34

标签: storage google-colaboratory

我目前面临处理大型数据集的问题,由于google colab提供的空间有限(37 GB),我无法将数据集直接下载到google colab中,我已经进行了一些研究,而且似乎取决于我们分配的GPU,对于某些人来说,磁盘上的可用空间可能更多。 所以我的问题是,我可以将数据集下载到服务器(例如Google Cloud)上,然后再从服务器上加载它。 数据集大约为20 GB,为什么37 GB不够,是因为当您下载一个zip文件时,它需要提取文件,因此需要额外的20 GB,但是如果我在服务器上下载并提取文件,我只会在Google colab上使用20 GB, 任何其他建议都值得欢迎,我的最终目标是找到一种解决方案,使模型可以在coco数据集上进行训练。

1 个答案:

答案 0 :(得分:0)

另一种方法可能是仅将annotations file上传到Google Colab。无需下载图像数据集。我们将使用PyCoco API。接下来,在准备图像时,您可以使用URL读取图像文件,而不是从云端硬盘/本地文件夹访问图像文件!

# The normal method. Read from folder / Drive
I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))

# Instead, use this! Url to load image
I = io.imread(img['coco_url'])

此方法将为您节省大量空间,下载时间和精力。但是,在训练过程中您将需要可以正常工作的Internet连接以获取图像(因为您正在使用colab,所以您当然可以拥有它)。

如果您有兴趣进一步探索COCO数据集,可以查看my post on medium