我必须在大学里做一个深度学习项目,在那里我需要使用医学图像数据库。该数据库存储在Google Cloud Platform存储桶中。
但是,数据库的大小超过4 TB,因此我负担不起使用gsutil
下载数据。我也不能使用Google Colab笔记本,因为它的磁盘存储大小为350GB。
有什么办法可以访问数据并用它来教我的网络?
答案 0 :(得分:3)
我认为您的方法不正确。
构建模型时,只需要具有数据集的代表性子集即可验证图层和预期行为。
然后,当所有步骤打包完成后,您就可以在专用VM(如Deep Learning VM)上运行训练作业。 AI-Platform可以自动处理此过程。您还可以设置超参数服务器并并行进行训练。
在训练阶段,您经常使用批处理:仅加载数据集的一部分,对其进行混洗,然后训练对该子集执行几个步骤(使用RMSE /交叉熵计算,评估,梯度优化)。
由于您批量使用整个数据集的子集,因此无需同时在VM上拥有4Tb。您的训练循环将为您完成(下载,训练,评估,删除)。
就像我之前说过的那样,因为您使用了一个子集,所以您还可以在多个VM上并行进行训练,以减少训练时间。
我建议您回顾一下您的训练循环。如果您给我您使用的框架名称/版本,我可以通过辅导和示例帮助您。