Question

我目前面临处理大型数据集的问题，由于google colab提供的空间有限（37 GB），我无法将数据集直接下载到google colab中，我已经进行了一些研究，而且似乎取决于我们分配的GPU，对于某些人来说，磁盘上的可用空间可能更多。所以我的问题是，我可以将数据集下载到服务器（例如Google Cloud）上，然后再从服务器上加载它。数据集大约为20 GB，为什么37 GB不够，是因为当您下载一个zip文件时，它需要提取文件，因此需要额外的20 GB，但是如果我在服务器上下载并提取文件，我只会在Google colab上使用20 GB，任何其他建议都值得欢迎，我的最终目标是找到一种解决方案，使模型可以在coco数据集上进行训练。

Answer 1

另一种方法可能是仅将annotations file上传到Google Colab。无需下载图像数据集。我们将使用PyCoco API。接下来，在准备图像时，您可以使用URL读取图像文件，而不是从云端硬盘/本地文件夹访问图像文件！

# The normal method. Read from folder / Drive
I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))

# Instead, use this! Url to load image
I = io.imread(img['coco_url'])

此方法将为您节省大量空间，下载时间和精力。但是，在训练过程中您将需要可以正常工作的Internet连接以获取图像（因为您正在使用colab，所以您当然可以拥有它）。

如果您有兴趣进一步探索COCO数据集，可以查看my post on medium。

无法加载我的数据集以在Google Colab上训练我的模型

1 个答案: