使用colab时,我想使用Google存储桶中的kaggle数据集。
首先:有没有一种方法可以通过kaggle api将kaggle数据集直接上传到Google存储桶?
第二:我如何使用colab中Google桶中的数据而不将其复制到笔记本中?
目前,我将谷歌存储桶与colab结合使用的经验是通过URI进行音频转录,例如:
gcs_uri = 'gs://bucket_name/file_name.wav'
audio = types.RecognitionAudio(uri=gcs_uri)
我猜我也可以做类似的事情,直接从URI将数据加载到python pandas数据帧中。我在本地计算机上使用kaggle api的经验,例如:
kaggle competitions download -c petfinder-adoption-prediction
使用kaggle api下载数据。如果我将数据加载到colab笔记本中,则会在会话之间将其删除,因此,我使用Google bucket的目的是使其可用于多个会话。
答案 0 :(得分:0)
您可以try this solution发行第一期。不知道wget是否可以用于您需要的数据集,但是不确定this suggests it's possible。但这不是通过Kaggle API。
第二个问题,如何使用数据而不将其复制到笔记本上,实际上是您可以mount the bucket as a disk to your instance。然后,您可以直接访问数据。
因此,将它们放在一起可以在本地安装存储桶,然后将数据移入其中。然后,您可以在笔记本中访问它。