Question

使用jupyter和本地文件时，加载效果很好，但是当我适应Colab时，从Drive文件夹，数据集中获取数据。DatasetFolder始终加载9500个奇数数据点，而不是全部10000个。有人遇到类似的问题吗？

train_data = datasets.DatasetFolder('/content/drive/My Drive/4 - kaggle/data', np.load, list(('npy'))  )

print(train_data.__len__)

返回

<bound method DatasetFolder.__len__ of Dataset DatasetFolder
    Number of datapoints: 9554
    Root Location: /content/drive/My Drive/4 - kaggle/data
    Transforms (if any): None
    Target Transforms (if any): None>

通常我将在其中获得全部10000个元素。

Answer 1

从云端硬盘中的单个文件夹加载大量文件可能很慢且容易出错。如果您在GCS上暂存数据或将存档（.zip或.tar.gz）上传到Drive并将该文件复制到您的colab VM，然后在其中取消存档，然后运行代码，则可能会更快乐。在本地数据上。

使用pytorch的数据集从云端硬盘加载时出现问题。

1 个答案: