我正在尝试将Google BigQuery数据集中的数据提取到同一地区的GC实例上的内存中,但这需要太长时间。使用单个WHERE子句的简单查询需要10分钟才能运行。我相信这10分钟的大部分时间用于将数据从BigQuery数据集下载到GC实例,就像我在CLI中运行它在20秒内运行一样。
CLI示例:
bq query "SELECT * FROM dataset.table where field1 = 'test'"
大约需要20秒,处理2-6 GB
Python示例:
client = bigquery.Client()
dataset_ref = client.dataset('dataset')
query = ("SELECT * FROM dataset.table where field1 = 'test'")
query_job = client.query(query)
大约需要10分钟。
Python API为here。
如何快速将BigQuery中的数据导入GC实例的内存?