将BigQuery数据传输到Amazon S3存储桶

时间:2020-10-01 15:20:19

标签: python amazon-s3 google-cloud-platform google-bigquery

我有一个存储在Big Query中的架构,我需要将其传输到amazon s3存储桶。这是什么过程?.. BigQuery数据属于愿意给予适当访问权限以传输数据的其他组织。我找到了从s3存储桶导入到gcp的方法,但是没有从大查询直接导出到s3的方法。另外,由于bigquery中的数据不断变化,并且我一直希望每天将数据存储到s3存储桶中时,我还需要计划此过程。请提及相关参考。请注意,每天的数据将以TB为单位

1 个答案:

答案 0 :(得分:0)

AFAIK没有直接的bigquery到s3管道,但解决方法是先将BigQuery到Google云存储再到s3 1-第一步是在将要安排作业的计算机上设置gcloud sdk。 2-配置gcloud并特别注意boto configuration,如果该进程将在具有附加角色的EC2上运行,则可以跳过此步骤,以使其能够写入S3(比使用密钥更好的安全性做法) 3-将数据从bigquery复制到gcs

bq --location=US extract --destination_format AVRO --compression SNAPPY [source_table] [target location on gcs]

4-将文件从gcs复制到s3

gsutil rsync -r [target location on gcs] to [target location on s3]

注意:此过程对于GA360数据而言效果很好,因为它已经按天进行了分区,但是如果不是这种情况,并且您无法分离表,则可以schedule a query on GCP创建带有增量逻辑的表将用作[源表]