无法从colab笔记本解压缩文件夹中的30 GB数据。我使用kaggle api调用下载了30GB的压缩数据集。但是,当我尝试使用!unzip destination_folder_name -d source_name解压缩数据集时,它抛出错误或错误的zip偏移量。该文件夹包含.png格式的图像和蒙版。压缩文件中有2个文件夹,分别包含256k样本的蒙版和图像。下面我附上错误图片
尝试在Google colab pro中解压缩该数据集的命令?
数据集链接:https://www.kaggle.com/raghaw/panda-dataset-medium-25-256-256
答案 0 :(得分:0)
将文件从云端硬盘复制到本地磁盘上,然后再解压缩。
结果将更快,更可靠的I / O。
其原因是DriveFS FUSE性能受每个文件速率限制的限制。对于通常解压缩大型归档文件的小型文件,此速率限制将控制I / O性能,并引起神秘错误,如您观察到的那样。