适用于每小时/每日数据的Google BigQuery架构设计

时间:2017-08-14 08:40:59

标签: google-bigquery

我正在考虑使用Google BigQuery作为我的数据仓库选项。我在Google Cloud SQL,Google Cloud BigTable和公开的REST API上都有数据,可以在任何UI上使用数据。我计划在我的ETL作业中使用相同的API作为源,它将数据附加到BigQuery

通过此API,我可以获取每日数据。让我们举例 - 总实体 - 10,000,与每个实体相关的测量类型 - 1000.因此,每年(每天每次测量的单次输入) - 365(没有天数)* 10,000(总实体)* 1000(总测量) = 3650000000(约40亿)

现在,我有两种架构设计选择: -

  1. 创建单个表 - 一个实体ID列和1000个测量列
  2. 明智地使用不同的表(明年使用分片),然后使用UNION查询来获取数据
  3. 请告诉我哪个选项在成本,可扩展性方面最佳。我理解第二种选择会更具成本效益,因为它需要很少的表扫描。

    有没有更好的选择?

0 个答案:

没有答案