将8.9 GB的数据集从Google云端硬盘加载到Google Colab?

时间:2019-01-12 10:58:22

标签: python-3.x google-colaboratory

我正在处理一个巨大的实验室数据集,并且想知道如何将8.9GB的数据集从我的google驱动器加载到我的google colab文件。它显示的错误是运行时停止,正在重新启动。

我已经尝试过chunksize,nrows,na_filter和dask。但是,实施它们可能会有问题。如果您能向我解释如何使用它。我在下面附上我的原始代码。

import pandas as pd

!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

id = '1M4tregypJ_HpXaQCIykyG2lQtAMR9nPe'
downloaded = drive.CreateFile({'id':id}) 
downloaded.GetContentFile('Filename.csv')  
df = pd.read_csv('Filename.csv')

df.head()

如果您建议我尝试过的任何方法,请使用适当且有效的代码进行。

1 个答案:

答案 0 :(得分:0)

问题可能出在pd.read_csv('Filename.csv')

一个8.9GB的CSV文件将占用13GB以上的RAM。您不应将整个文件加载到内存中,而应逐步进行。