Google BigQuery上的数百万个表格

时间:2015-11-21 00:47:48

标签: google-bigquery

我使用BigQuery约50亿行,可以在~100万个密钥上进行分区。

由于我们的查询通常是通过分区键,是否可以创建~1百万个表(1个表/键)来限制处理的总字节数?

我们还需要有时一起查询所有数据,这很容易通过将所有数据放在一个表中来实现,但我希望使用相同的平台进行分区分析作为批量分析。

1 个答案:

答案 0 :(得分:6)

这可能有用,但是非常不鼓励对这个表进行细分。您可能最好将数据分区为较少数量的表(例如10或100),并仅查询所需的表。

沮丧的是什么意思?首先,这些百万表中的每一个都将收取至少10 MB的存储空间。因此,当您可能拥有的数据少于此数量时,您将需要支付9 TB的存储费用。其次,当您尝试创建那么多表时,您可能会达到速率限制。第三,管理一百万张桌子非常棘手; BigQuery UI可能没有多大帮助。第四,你会让BigQuery上的工程师非常脾气暴躁,他们会开始试图弄清楚我们是否需要提高表的最小尺寸。

此外,如果您确实希望有时查询所有数据,那么精细分区可能会让您感到困难,除非您愿意多次存储数据。您只能在查询中引用1000个表,而您引用的每个表都会导致性能下降。