使用jupyter和本地文件时,加载效果很好,但是当我适应Colab时,从Drive文件夹,数据集中获取数据。DatasetFolder始终加载9500个奇数数据点,而不是全部10000个。有人遇到类似的问题吗?
train_data = datasets.DatasetFolder('/content/drive/My Drive/4 - kaggle/data', np.load, list(('npy')) )
print(train_data.__len__)
返回
<bound method DatasetFolder.__len__ of Dataset DatasetFolder
Number of datapoints: 9554
Root Location: /content/drive/My Drive/4 - kaggle/data
Transforms (if any): None
Target Transforms (if any): None>
通常我将在其中获得全部10000个元素。
答案 0 :(得分:1)
从云端硬盘中的单个文件夹加载大量文件可能很慢且容易出错。如果您在GCS上暂存数据或将存档(.zip或.tar.gz)上传到Drive并将该文件复制到您的colab VM,然后在其中取消存档,然后运行代码,则可能会更快乐。在本地数据上。