Question

从我一直在阅读的Google Cloud Storage到BigQuery传输文档，我可以看到如何一个接一个地加载数据文件。

是否可以将整个存储桶添加到BigQuery中？

文件夹和文件是组织的日志。我们正在寻找基于使用可视化工具的可视化工具。但是首先我们需要将存储桶数据放入BigQuery中……

存储桶结构如下：

BucketName-> LogDate（例如20180623）->所有单个日志

关于如何做到这一点的任何想法？

Answer 1

您可以在加载过程中使用通配符来实现本link

中所述的目标

文档的相关部分是这样的：

例如，如果您有两个名为fed-sample000001.csv和fed-sample000002.csv的文件，则存储段URI为 gs：// mybucket / fed-sample * 。然后，可以在控制台，经典UI，CLI或API中使用此通配符URI。

Answer 2

您可以load迭代地嵌套那些日志。例如，如果您的日志为CSV格式，则其中包含三个字段：

gsutil ls gs://mybucket/* | grep '.csv' | xargs -I {} bq --location=US load --source_format=CSV mydataset.mytable {} field_a:type_field_a, field_b:type_field_b, field_c:type_field_c

在这里，请注意如何以field_[x]:type_field_[x]的格式内联指定架构，其中type可以是BQ支持的任何列类型。

将整个存储桶从Google云存储移至BigQuery？

2 个答案: