从Google存储中的多个文件夹创建多个bigquery表

时间:2018-07-12 05:52:05

标签: google-cloud-platform google-bigquery google-cloud-storage

我有一个Google Cloud存储桶,其中包含多个文件夹,每个文件夹都包含CSV。

我想最终创建一个BigQuery表,其中包含所有CSV,但是要添加一列说明原始文件夹。我想先为每个此类文件夹创建一个BigQuery表,然后将它们合并。

是否可以快速创建多个BigQuery表,每个表都位于Google Cloud存储桶下?另外-如果有一种简单的方法可以自动将文件夹名称添加为新列-那就太好了!

1 个答案:

答案 0 :(得分:1)

我写了一篇关于此的博客文章:

https://medium.com/google-cloud/bigquery-lazy-data-loading-ddl-dml-partitions-and-half-a-trillion-wikipedia-pageviews-cd3eacd657b6

诀窍是在BigQuery中创建一个联邦查询,该查询指向文件(gs://bucket/folder/*)的整体,从而为您提供伪列_FILE_NAME

SELECT *, _FILE_NAME fn 
FROM `fh-bigquery.views.wikipedia_views_gcs` 
LIMIT 10

enter image description here

Ta-da!