如何在Google Colab中提取非常大的文件

时间:2020-03-16 15:31:14

标签: google-drive-api google-colaboratory

我正在尝试提取14.6 GB的7z文件(https://archive.org/download/stackexchange/stackoverflow.com-Posts.7z)。

我已将其下载并保存在我的Google云端硬盘中。我将驱动器安装到Google Colab,然后将当前目录更改为文件所在的位置:os.chdir('/content/drive/My Drive/.../')

当我尝试解压缩文件!p7zip -k -d stackoverflow.com-Posts.7z时,它使用当前实例的HDD空间,并且在此过程中,它用完了所有可用的已分配HDD空间,因此解压缩突然终止。

有没有一种方法可以提取文件而无需使用实例的HDD空间,也可以分块进行操作,从而提取成功。

PS:我相信,解压缩后的文件大小约为100 GB

1 个答案:

答案 0 :(得分:1)

您可以尝试使用libarchive逐块读取数据,而无需先将其解压缩。

https://github.com/dsoprea/PyEasyArchive

这里是example notebook