将大查询表下载为JSON

时间:2015-08-24 07:12:54

标签: json google-bigquery google-cloud-datastore

我想将现有的Big Query表下载为JSON,以便操作具有长字符串的列。

Big Query表已经从App Engine到GCS的数据存储备份文件中被摄取。我使用Big Query从GCS读取数据存储备份文件并从中创建了一个表,这导致重复的字符串列为非常长的字符串。

我无法解析长字符串,因此我需要将该表作为JSON下载,并将其作为新表重新作为Big Query。我需要一个关于这种方法的建议

1 个答案:

答案 0 :(得分:1)

有三种导出数据的方法:

  1. 单个URI(1个文件,限制1GB,很可能你正在使用它)
  2.   

    [ 'GS://my-bucket/file-name.json']

         

    创建:

         

    GS://my-bucket/file-name.json

    1. 单个通配符URI(每个1GB创建多个文件)
    2.   

      [ 'GS://my-bucket/file-name-*.json']

           

      创建:

           

      GS://my-bucket/file-name-000000000000.json
        GS://my-bucket/file-name-000000000001.json
        gs://my-bucket/file-name-000000000002.json ...

      1. 多个通配符URI(这需要Hadoop)
      2.   

        gs:// my-bucket / file-name- {worker number} - * .json

             

        创建:

             

        此示例假定BigQuery在每个文件中创建80个分片文件   分区。

             

        GS://my-bucket/file-name-1-000000000000.json
          GS://my-bucket/file-name-1-000000000001.json
          ...
          GS://my-bucket/file-name-1-000000000080.json
          GS://my-bucket/file-name-2-000000000000.json
          GS://my-bucket/file-name-2-000000000001.json
          ...
          GS://my-bucket/file-name-2-000000000080.json
          GS://my-bucket/file-name-3-000000000000.json
          GS://my-bucket/file-name-3-000000000001.json
          ...
          gs://my-bucket/file-name-3-000000000080.json

        阅读更多内容:

        https://cloud.google.com/bigquery/exporting-data-from-bigquery