Google BigQuery:同时进行串流和群集

时间:2019-07-16 19:48:14

标签: google-bigquery

我有一个将数据流传输到几个不同表的过程(摄取时间已分区)。我尝试通过创建集群等效项来替换它们。

受到出色的article的鼓励,我开始提高查询性能。我已经创建了具有相应架构的新表,正确的群集字段并设置了流式传输。

只需提一下,我之前就对要加载数据的表进行了一些测试,并且查询得到了增强。经过两天的流式传输后,我注意到使用新设置没有任何好处。从the topicthe other onethe issue的理解中可以看出,流式传输群集无法带来额外的收益。我说的对吗?我曾考虑过对前一天的分区进行系统性的重新聚类,但是查询最新数据仍然没有收获。

使这两个功能协同工作以提高查询性能的最佳方法是什么?是否有一种方法可以重新群集没有DML MERGE语句中使用的真实密钥的数据?

1 个答案:

答案 0 :(得分:0)

tables进行集群分区的想法是,每次您已经对某些数据进行集群时

您只需要运行

SELECT *

,最后一次聚类后添加的数据将按顺序排列。

此后,您将可以更有效地搜索bigquery数据。