我有一个Google Cloud存储桶,其中包含多个文件夹,每个文件夹都包含CSV。
我想最终创建一个BigQuery表,其中包含所有CSV,但是要添加一列说明原始文件夹。我想先为每个此类文件夹创建一个BigQuery表,然后将它们合并。
是否可以快速创建多个BigQuery表,每个表都位于Google Cloud存储桶下?另外-如果有一种简单的方法可以自动将文件夹名称添加为新列-那就太好了!
答案 0 :(得分:1)
我写了一篇关于此的博客文章:
诀窍是在BigQuery中创建一个联邦查询,该查询指向文件(gs://bucket/folder/*
)的整体,从而为您提供伪列_FILE_NAME
:
SELECT *, _FILE_NAME fn
FROM `fh-bigquery.views.wikipedia_views_gcs`
LIMIT 10
Ta-da!