BigQuery是否支持模板表进行批量导入?

时间:2016-01-07 19:30:50

标签: google-bigquery google-cloud-dataflow

loading data into BigQuery有几种选择:例如bulk import from GCSstreaming和其他人。

在许多情况下,需要对正在加载的数据进行分片,例如按日期或按任意键,以生成更快查询的较小表,或绕过每表导入配额。

最近,引入了一个新功能template tables,使得这种分片非常容易进行流式处理:您只需在每个记录的基础上指定要流式传输的表名称的后缀。

此BigQuery功能是否可用于其他导入模式,最重要的是从GCS导入?以分片方式将大量数据导入BigQuery非常有用,这是一种常见的用例,例如:将Cloud Dataflow用于批处理作业时。

1 个答案:

答案 0 :(得分:1)

不,此时模板表格不可用于批量导入;理由是,由于批量导入可以创建表作为副作用,因此这不是必需的。

对于流式导入,语义有点棘手。由于流式插入请求不指定模式,如果目标表不存在,BigQuery不知道表的所需模式应该是什么。模板表允许流系统从其他地方查找所需的模式。

但是,对于批量加载,架构通常作为请求的一部分包含在内,或者可以从数据中推断出来,因此模板表并没有多大意义。

所有这些都说明了,我们非常清楚多个分片表的管理是不方便的,并且希望很快就能做好一些改进。