使用pytorch的数据集从云端硬盘加载时出现问题。

时间:2018-11-18 17:31:29

标签: python conv-neural-network pytorch google-colaboratory

使用jupyter和本地文件时,加载效果很好,但是当我适应Colab时,从Drive文件夹,数据集中获取数据。DatasetFolder始终加载9500个奇数数据点,而不是全部10000个。有人遇到类似的问题吗?

train_data = datasets.DatasetFolder('/content/drive/My Drive/4 - kaggle/data', np.load, list(('npy'))  )

print(train_data.__len__)

返回

<bound method DatasetFolder.__len__ of Dataset DatasetFolder
    Number of datapoints: 9554
    Root Location: /content/drive/My Drive/4 - kaggle/data
    Transforms (if any): None
    Target Transforms (if any): None>

通常我将在其中获得全部10000个元素。

1 个答案:

答案 0 :(得分:1)

从云端硬盘中的单个文件夹加载大量文件可能很慢且容易出错。如果您在GCS上暂存数据或将存档(.zip或.tar.gz)上传到Drive并将该文件复制到您的colab VM,然后在其中取消存档,然后运行代码,则可能会更快乐。在本地数据上。