加快Google Colab上数据集的加载速度

时间:2019-01-05 06:03:26

标签: dataset pytorch

我正在使用Pytorch在Google Colab上的德国交通标志数据集上进行图像分类。 这是数据集的结构:

  • GTSRB
    • 培训
      • 00000 /
        • *。ppmm
      • 00043 /
        • *。ppmm
    • 测试
      • *。ppmm
      • labels.csv

我设法将整个数据集上传到驱动器(花了很长时间!!!)。 我使用ImageFolder类和Dataset类分别加载训练图像和测试图像。

但是,训练我的模型确实很慢,并且没有有效地使用GPU。经过多次搜索,我发现这里从驱动器到Colab的文件传输是错误的。

有人知道我如何使用hd5数据集(或其他技术)首先存储所有训练和测试图像以供以后进行预处理吗?

1 个答案:

答案 0 :(得分:0)

如果您的问题确实是Colab和Drive之间的网络速度,则应尝试将文件直接上传到Google Colab实例,而不是从Drive访问它们。

window.addEventListener("unload", function() {
  navigator.sendBeacon("/logout");
});

执行此操作会将文件直接保存到您的Colab实例,从而使您的代码可以在本地访问文件。

但是,我怀疑除了网络延迟之外还可能存在其他问题-也许您的模型具有很多参数,或者某种程度上代码中存在使CUDA运行的错误。有时,我会忘记在“运行时”菜单选项卡“更改运行时类型”下将运行时更改为GPU运行时。

希望这会有所帮助!