将整个存储桶从Google云存储移至BigQuery?

时间:2019-05-03 20:48:56

标签: google-bigquery google-cloud-functions google-cloud-storage

从我一直在阅读的Google Cloud Storage到BigQuery传输文档,我可以看到如何一个接一个地加载数据文件。

是否可以将整个存储桶添加到BigQuery中?

文件夹和文件是组织的日志。我们正在寻找基于使用可视化工具的可视化工具。但是首先我们需要将存储桶数据放入BigQuery中……

存储桶结构如下:

  

BucketName-> LogDate(例如20180623)->所有单个日志

关于如何做到这一点的任何想法?

2 个答案:

答案 0 :(得分:1)

您可以在加载过程中使用通配符来实现本link

中所述的目标

文档的相关部分是这样的:

  

例如,如果您有两个名为fed-sample000001.csv和fed-sample000002.csv的文件,则存储段URI为 gs:// mybucket / fed-sample * 。然后,可以在控制台,经典UI,CLI或API中使用此通配符URI。

答案 1 :(得分:0)

您可以load迭代地嵌套那些日志。例如,如果您的日志为CSV格式,则其中包含三个字段:

gsutil ls gs://mybucket/* | grep '.csv' | xargs -I {} bq --location=US load --source_format=CSV mydataset.mytable {} field_a:type_field_a, field_b:type_field_b, field_c:type_field_c

在这里,请注意如何以field_[x]:type_field_[x]的格式内联指定架构,其中type可以是BQ支持的任何列类型。