loading data into BigQuery有几种选择:例如bulk import from GCS,streaming和其他人。
在许多情况下,需要对正在加载的数据进行分片,例如按日期或按任意键,以生成更快查询的较小表,或绕过每表导入配额。
最近,引入了一个新功能template tables,使得这种分片非常容易进行流式处理:您只需在每个记录的基础上指定要流式传输的表名称的后缀。
此BigQuery功能是否可用于其他导入模式,最重要的是从GCS导入?以分片方式将大量数据导入BigQuery非常有用,这是一种常见的用例,例如:将Cloud Dataflow用于批处理作业时。
答案 0 :(得分:1)
不,此时模板表格不可用于批量导入;理由是,由于批量导入可以创建表作为副作用,因此这不是必需的。
对于流式导入,语义有点棘手。由于流式插入请求不指定模式,如果目标表不存在,BigQuery不知道表的所需模式应该是什么。模板表允许流系统从其他地方查找所需的模式。
但是,对于批量加载,架构通常作为请求的一部分包含在内,或者可以从数据中推断出来,因此模板表并没有多大意义。
所有这些都说明了,我们非常清楚多个分片表的管理是不方便的,并且希望很快就能做好一些改进。