我最近开始使用两台计算机(笔记本电脑和PC)解决Kaggle比赛。 Kaggle为训练ML提供了大量数据。
对我来说最大的问题是下载数据,大约需要30 GB,更大的问题是将其解压缩。我当时在笔记本电脑上工作,但后来决定改用PC。我保存了ipynb
文件并关闭了笔记本电脑。
打开此文件后,我发现所有解压缩的数据都丢失了,我需要花费2小时再次下载和解压缩该数据。
是否可以使用此笔记本保存所有未压缩的数据?还是将其存储在Google磁盘上的某个位置?
答案 0 :(得分:1)
您可以利用GoogleDrive的存储容量。 Colab允许您将这些数据存储在您的云端硬盘上,并通过colab notbook进行访问,如下所示:
from google.colab import drive
import matplotlib.image as mpimg
import matplotlib.pyplot as plt
import pandas as pd
drive.mount('/content/gdrive')
img = mpimg.imread(r'/content/gdrive/My Drive/top.bmp') # Reading image files
df = pd.read_csv('/content/gdrive/My Drive/myData.csv') # Loading CSV
安装后,它会要求您访问特定的URL来授予访问驱动器的权限。只需粘贴返回的令牌。只需要做一次。
关于colab的最好的事情是您还可以从代码运行shell cmds,您所需要做的就是在命令前面加上!
(爆炸)。当您需要解压缩等时有用。
import os
os.chdir('gdrive/My Drive/data') #change dir
!ls
!unzip -q iris_data.zip
df3 = pd.read_csv('/content/gdrive/My Drive/data/iris_data.csv')
注意:由于您已指定数据量约为30GB,因此如果您使用的是Google提供的免费套餐(每个帐户仅提供15GB),则此功能可能没有用找别的地方。
您也可以访问此特定问题,以获取有关Kaggle integration with Google Colab的更多解决方案。