从我一直在阅读的Google Cloud Storage到BigQuery传输文档,我可以看到如何一个接一个地加载数据文件。
是否可以将整个存储桶添加到BigQuery中?
文件夹和文件是组织的日志。我们正在寻找基于使用可视化工具的可视化工具。但是首先我们需要将存储桶数据放入BigQuery中……
存储桶结构如下:
BucketName-> LogDate(例如20180623)->所有单个日志
关于如何做到这一点的任何想法?
答案 0 :(得分:1)
您可以在加载过程中使用通配符来实现本link
中所述的目标文档的相关部分是这样的:
例如,如果您有两个名为fed-sample000001.csv和fed-sample000002.csv的文件,则存储段URI为 gs:// mybucket / fed-sample * 。然后,可以在控制台,经典UI,CLI或API中使用此通配符URI。
答案 1 :(得分:0)
您可以load
迭代地嵌套那些日志。例如,如果您的日志为CSV格式,则其中包含三个字段:
gsutil ls gs://mybucket/* | grep '.csv' | xargs -I {} bq --location=US load --source_format=CSV mydataset.mytable {} field_a:type_field_a, field_b:type_field_b, field_c:type_field_c
在这里,请注意如何以field_[x]:type_field_[x]
的格式内联指定架构,其中type可以是BQ支持的任何列类型。