将BigQuery的结果导入GC实例的内存

时间:2018-05-20 00:16:08

标签: python google-bigquery

我正在尝试将Google BigQuery数据集中的数据提取到同一地区的GC实例上的内存中,但这需要太长时间。使用单个WHERE子句的简单查询需要10分钟才能运行。我相信这10分钟的大部分时间用于将数据从BigQuery数据集下载到GC实例,就像我在CLI中运行它在20秒内运行一样。

CLI示例:

bq query "SELECT * FROM dataset.table where field1 = 'test'" 

大约需要20秒,处理2-6 GB

Python示例:

client = bigquery.Client()
dataset_ref = client.dataset('dataset')
query = ("SELECT * FROM dataset.table where field1 = 'test'")
query_job = client.query(query)

大约需要10分钟。

Python API为here

如何快速将BigQuery中的数据导入GC实例的内存?

0 个答案:

没有答案