使用Kaggle API将数据上传到Google存储桶并在Colab中使用

时间:2019-02-21 23:56:11

标签: python google-colaboratory kaggle

使用colab时,我想使用Google存储桶中的kaggle数据集。

首先:有没有一种方法可以通过kaggle api将kaggle数据集直接上传到Google存储桶?

第二:我如何使用colab中Google桶中的数据而不将其复制到笔记本中?

目前,我将谷歌存储桶与colab结合使用的经验是通过URI进行音频转录,例如:

gcs_uri = 'gs://bucket_name/file_name.wav'
audio = types.RecognitionAudio(uri=gcs_uri)

我猜我也可以做类似的事情,直接从URI将数据加载到python pandas数据帧中。我在本地计算机上使用kaggle api的经验,例如:

kaggle competitions download -c petfinder-adoption-prediction

使用kaggle api下载数据。如果我将数据加载到colab笔记本中,则会在会话之间将其删除,因此,我使用Google bucket的目的是使其可用于多个会话。

1 个答案:

答案 0 :(得分:0)

您可以try this solution发行第一期。不知道wget是否可以用于您需要的数据集,但是不确定this suggests it's possible。但这不是通过Kaggle API。

第二个问题,如何使用数据而不将其复制到笔记本上,实际上是您可以mount the bucket as a disk to your instance。然后,您可以直接访问数据。

因此,将它们放在一起可以在本地安装存储桶,然后将数据移入其中。然后,您可以在笔记本中访问它。