我正在处理一个巨大的实验室数据集,并且想知道如何将8.9GB的数据集从我的google驱动器加载到我的google colab文件。它显示的错误是运行时停止,正在重新启动。
我已经尝试过chunksize,nrows,na_filter和dask。但是,实施它们可能会有问题。如果您能向我解释如何使用它。我在下面附上我的原始代码。
import pandas as pd
!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
id = '1M4tregypJ_HpXaQCIykyG2lQtAMR9nPe'
downloaded = drive.CreateFile({'id':id})
downloaded.GetContentFile('Filename.csv')
df = pd.read_csv('Filename.csv')
df.head()
如果您建议我尝试过的任何方法,请使用适当且有效的代码进行。
答案 0 :(得分:0)
问题可能出在pd.read_csv('Filename.csv')
。
一个8.9GB的CSV文件将占用13GB以上的RAM。您不应将整个文件加载到内存中,而应逐步进行。