文件太大,无法在Colab中读取

时间:2020-02-24 21:27:51

标签: python google-colaboratory

通常,我将csv文件上传到Google驱动器,然后在Google Colab中,将驱动器安装在/content/drive上,并使用pd.read_csv来读取文件。

上载后,上载的文件通常显示在/content/drive/My Drive/下:

enter image description here

这次,我上传了一个2GB的csv文件,但在/content/drive/My Drive/部分中找不到该文件以打开它。我检查了一些帖子,但似乎无法解决我的问题。有什么办法可以读取较大的csv文件?


更新:

在尝试正确获得与edit的可共享链接后,edit似乎没有选择,如下所示:enter image description here

2 个答案:

答案 0 :(得分:1)

正如@korakot 提到的,您可以使用以下命令将文件从驱动器下载到 Colab Pro 中的当前目录,使用以下命令:

!gdown --id 1GNjhogITyxMiaLno4trJoGM6I-MofFG8

这假设文件可在云端硬盘中共享。

如果您收到 Permission Denied 错误并确认该文件确实可以共享,那么很遗憾您已达到配额。如果在 24 小时内过于频繁地访问云端硬盘中的大文件,就会发生这种情况。我最近遇到了一个非常大的文件,并且在等待一天左右后能够访问它。

为了解决这个问题,Colab GitHub 中有一个关于这个主题的主题,以及一个潜在的解决方案,可以在 this comment specifically 中分块下载文件。

答案 1 :(得分:0)

您可以尝试另一种安装驱动器的方法。

!gdown --id xxxxxxxxxxx

这会将文件从GDrive下载到当前目录。

您需要公开共享文件,并从共享URL获取ID(xxxxxx)。