可以将上传的数据保存在Google Colab中以重新打开

时间:2019-06-12 15:41:52

标签: google-colaboratory kaggle

我最近开始使用两台计算机(笔记本电脑和PC)解决Kaggle比赛。 Kaggle为训练ML提供了大量数据。

对我来说最大的问题是下载数据,大约需要30 GB,更大的问题是将其解压缩。我当时在笔记本电脑上工作,但后来决定改用PC。我保存了ipynb文件并关闭了笔记本电脑。

打开此文件后,我发现所有解压缩的数据都丢失了,我需要花费2小时再次下载和解压缩该数据。

是否可以使用此笔记本保存所有未压缩的数据?还是将其存储在Google磁盘上的某个位置?

1 个答案:

答案 0 :(得分:1)

您可以利用GoogleDrive的存储容量。 Colab允许您将这些数据存储在您的云端硬盘上,并通过colab notbook进行访问,如下所示:

from google.colab import drive
import matplotlib.image as mpimg 
import matplotlib.pyplot as plt
import pandas as pd

drive.mount('/content/gdrive')
img = mpimg.imread(r'/content/gdrive/My Drive/top.bmp')  # Reading image files
df = pd.read_csv('/content/gdrive/My Drive/myData.csv')  # Loading CSV

安装后,它会要求您访问特定的URL来授予访问驱动器的权限。只需粘贴返回的令牌。只需要做一次。

关于colab的最好的事情是您还可以从代码运行shell cmds,您所需要做的就是在命令前面加上!(爆炸)。当您需要解压缩等时有用。

import os
os.chdir('gdrive/My Drive/data')  #change dir
!ls
!unzip -q iris_data.zip 
df3 = pd.read_csv('/content/gdrive/My Drive/data/iris_data.csv')

注意:由于您已指定数据量约为30GB,因此如果您使用的是Google提供的免费套餐(每个帐户仅提供15GB),则此功能可能没有用找别的地方。

您也可以访问此特定问题,以获取有关Kaggle integration with Google Colab的更多解决方案。