直接将Avro文件创建到Google Cloud Storage

时间:2019-12-02 19:30:19

标签: python google-cloud-storage avro

我想跳过在本地创建avro文件并将其直接上传到Google Cloud Storage的步骤。

我检查了blob.upload from_string选项,但老实说,我不知道应将其替换为我的代码。而且我不知道这是否是我所需的最佳出路。这样,我可以通过将脚本包含在docker映像中来构建更现代的管道。

可以根据以下脚本以某种方式完成此操作:

Qty2

1 个答案:

答案 0 :(得分:0)

我已经看过您的脚本,并且可以看到您正在从BigQuery获取数据。我可以确认您已重现您的方案,并且能够将数据从BigQuery直接导出到Google Cloud Storage,而无需在本地创建avro文件。

我建议您看看here,其中描述了如何将表格数据从BigQuery导出到Google Cloud Storage。以下是要执行的步骤:

  1. 在云控制台中打开BigQuery Web UI。
  2. 在导航面板的“资源”部分中,展开项目并单击 您的数据集以对其进行扩展。查找并单击包含您所要数据的表 导出。
  3. 在窗口右侧,单击导出,然后选择导出到云存储
  4. 在“导出到云存储”对话框中:
    • 对于“选择Cloud Storage”位置,浏览存储桶。
    • 对于“导出格式”,请选择特定格式的导出数据格式 情况下,选择“ Avro”。
    • 点击导出。

尽管如此,也有可能使用Python做到这一点。我建议您看看here

我希望这种方法对您有用。