使用google-cloud-storage将数据从gcs传输到s3

时间:2017-10-23 14:38:30

标签: python amazon-s3 google-cloud-storage boto3

我正在创建一个小应用程序,将数据从BigQuery导出到google-cloud-storage,然后将其复制到aws s3中,但无法在python中找到如何执行此操作。

我已经在kotlin中编写了代码(因为它对我来说最简单,我的问题范围之外的原因,我们希望它在python中运行),而在kotlin中,google sdk允许我得到来自InputSteam对象的Blob,我可以将其注入amazon s3 sdk's AmazonS3.putObject(String bucketName, String key, InputStream input, ObjectMetadata metadata)

使用python sdk似乎我只有将文件下载到文件和字符串的选项。

我希望(就像我在kotlin中所做的那样)将从Blob对象返回的一些对象传递到AmazonS3.putObject()方法,而不必先将内容保存为文件。

我绝不是一个python pro,所以我可能错过了一个明显的方法。

2 个答案:

答案 0 :(得分:1)

Google-resumable-media可用于从GCS和smart_open通过块下载文件,以将其上传到S3。这样您就不需要将整个文件下载到内存中。此外,还有一个类似的问题可以解决此问题Can you upload to S3 using a stream rather than a local file?

答案 1 :(得分:0)

我最终得到了以下解决方案,因为显然download_to_filename将数据下载到boto3 s3 client可以处理的类似文件的对象中。

这适用于较小的文件,但由于它将所有文件缓存在内存中,因此对于较大的文件可能会有问题。

def copy_data_from_gcs_to_s3(gcs_bucket, gcs_filename, s3_bucket, s3_filename):
gcs_client = storage.Client(project="my-project")

bucket = gcs_client.get_bucket(gcs_bucket)
blob = bucket.blob(gcs_filename)

data = BytesIO()
blob.download_to_file(data)
data.seek(0)

s3 = boto3.client("s3")
s3.upload_fileobj(data, s3_bucket, s3_filename)

如果有人有关于BytesIO以外的其他信息/知识来处理数据(fx。所以我可以直接将数据流式传输到s3中,而不必将其缓存在主机上的内存中),我们将非常感激