Question

我正在处理一个巨大的实验室数据集，并且想知道如何将8.9GB的数据集从我的google驱动器加载到我的google colab文件。它显示的错误是运行时停止，正在重新启动。

我已经尝试过chunksize，nrows，na_filter和dask。但是，实施它们可能会有问题。如果您能向我解释如何使用它。我在下面附上我的原始代码。

import pandas as pd

!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

id = '1M4tregypJ_HpXaQCIykyG2lQtAMR9nPe'
downloaded = drive.CreateFile({'id':id}) 
downloaded.GetContentFile('Filename.csv')  
df = pd.read_csv('Filename.csv')

df.head()

如果您建议我尝试过的任何方法，请使用适当且有效的代码进行。

Answer 1

问题可能出在pd.read_csv('Filename.csv')。

一个8.9GB的CSV文件将占用13GB以上的RAM。您不应将整个文件加载到内存中，而应逐步进行。

将8.9 GB的数据集从Google云端硬盘加载到Google Colab？

1 个答案: