使用Big Query或Big Table查询聚合值的用例?

时间:2019-01-24 22:13:55

标签: google-bigquery bigtable google-cloud-bigtable

我有一个用例,用于设计30 TB文本文件的存储,作为在Google云上部署数据管道的一部分。我的输入数据为CSV格式,我想最大程度地减少查询多个用户的聚合值的成本,这些用户将使用多个引擎在Cloud Storage中查询数据。对于该用例,下面哪个是更好的选择?

使用Cloud Storage进行存储并在Big Query中链接永久表以进行查询,或使用Cloud Big table进行存储并在计算引擎上安装HBaseShell来查询Big table数据。

基于下面针对该特定用例的分析,我看到以下可以通过BigQuery查询cloudstorage的地方。此外,Bigtable支持CSV导入和查询。根据文档,BigQuery限制还提到所有输入文件(对于CSV,JSON和Avro)在CSV,JSON和Avro上的每个加载作业的最大大小为15 TB,这意味着如果我加载的容量超过15 TB,则可以加载多个加载作业。

https://cloud.google.com/bigquery/external-data-cloud-storage#temporary-tables  
https://cloud.google.com/community/tutorials/cbt-import-csv  
https://cloud.google.com/bigquery/quotas  

那么,这是否意味着我可以在上述用例中使用BigQuery?

1 个答案:

答案 0 :(得分:1)

简短的答案是肯定的。

我在以下内容中写道:

在加载表的群集时,对于大多数常见查询的成本有了大幅度的改善:

总结:

  • BigQuery可以直接从GCS读取CSV和其他文件。
  • 您可以在SQL中定义一个视图,以任何可能的方式解析这些CSV。
  • 您可以运行CREATE TABLE语句以将CSV实例化为BigQuery本机表,以提高性能和成本。
  • 您可以通过API而不是CREATE TABLE进行导入,而这些都是免费的(而不是CREATE TABLE的查询费用。

BigQuery可以轻松处理15 TB。