我有一个用例,用于设计30 TB文本文件的存储,作为在Google云上部署数据管道的一部分。我的输入数据为CSV格式,我想最大程度地减少查询多个用户的聚合值的成本,这些用户将使用多个引擎在Cloud Storage中查询数据。对于该用例,下面哪个是更好的选择?
使用Cloud Storage进行存储并在Big Query中链接永久表以进行查询,或使用Cloud Big table进行存储并在计算引擎上安装HBaseShell来查询Big table数据。
基于下面针对该特定用例的分析,我看到以下可以通过BigQuery查询cloudstorage的地方。此外,Bigtable支持CSV导入和查询。根据文档,BigQuery限制还提到所有输入文件(对于CSV,JSON和Avro)在CSV,JSON和Avro上的每个加载作业的最大大小为15 TB,这意味着如果我加载的容量超过15 TB,则可以加载多个加载作业。
https://cloud.google.com/bigquery/external-data-cloud-storage#temporary-tables
https://cloud.google.com/community/tutorials/cbt-import-csv
https://cloud.google.com/bigquery/quotas
那么,这是否意味着我可以在上述用例中使用BigQuery?
答案 0 :(得分:1)
简短的答案是肯定的。
我在以下内容中写道:
在加载表的群集时,对于大多数常见查询的成本有了大幅度的改善:
总结:
CREATE TABLE
语句以将CSV实例化为BigQuery本机表,以提高性能和成本。CREATE TABLE
进行导入,而这些都是免费的(而不是CREATE TABLE
的查询费用。BigQuery可以轻松处理15 TB。