将大数据集(10 GB +)上传到Jupyter笔记本电脑/ GCP AI笔记本电脑

时间:2020-02-27 19:53:10

标签: google-cloud-platform google-bigquery jupyter-notebook google-cloud-storage gcp-ai-platform-notebook

TL; DR:

如何将大型数据集(超过30 GB)从BigQuery移至Jupyter Notebooks(GCP中的AI Notebook)

问题:

我确实有一个〜30GB的数据集(时间序列),我想将其上传到Jupyter Notebooks(AI Notebook),以便在将NN模型部署到其自己的服务器中之前对其进行测试。该数据集已经在Bigquery中建立,我确实使用通配符(100个部分)将其移动到了Storage中。

我所做的事情:

但是,我坚持尝试将其上传到笔记本中:

1)Bigquery不允许直接查询它,也太慢了

2)无法下载和本地上传

2)确实以avro格式将其移动到存储中,但尚未使用通配符查询它:

from google.cloud import storage
from io import BytesIO
client = storage.Client()

bucket = "xxxxx"
file_path = "path"

blob = storage.blob.Blob(file_path,bucket)

content = blob.download_as_string()

train = pd.read_csv(BytesIO(content))

我缺少什么?我应该以某种方式使模型成为函数并使用Dataflow吗?

最佳

0 个答案:

没有答案