将大型BigQuery表复制到Google云端存储并随后进行本地下载

时间:2016-07-07 09:29:38

标签: google-bigquery google-cloud-storage

我的目标是在本地保存一个BigQuery表,以便能够执行一些分析。为了在本地保存,我尝试将其作为csv文件导出到Google云端存储。唉数据集太大了,无法将其作为一个文件移动,因此它被分成许多不同的文件,如下所示:

exampledata.csv000000000000
exampledata.csv000000000001
...

有没有办法让它们重新组合在Google云端存储中?甚至可能将格式更改为csv?

我的方法是下载它并尝试手动更改它。单击它不起作用,因为它将它保存为BIN.file并且也非常耗时。此外,我不知道如何将它们组装在一起。

我也尝试通过gsutil命令获取它,我能够将它们保存在我的机器上,但是作为压缩文件。当用WinRar解压缩时,它给了我exampledata.out文件,我不知道该怎么做。另外,我无法如何将它们放回一个文件中。

如何将表格作为一个文件和csv存入计算机?

我正在使用的计算机在Ubuntu上运行,但我需要使用Windows Server 2012将数据存储在Google虚拟机上。

2 个答案:

答案 0 :(得分:0)

尝试使用以下命令将所有文件从windows命令提示符合并为一个

copy *.cs* merged.csv

答案 1 :(得分:0)

建议您将文件另存为.gzip文件,然后您可以轻松地将其从Google Cloud下载为BIN文件。如果你在bigquery中获得这些拆分文件如下: 导出表 - > csv格式,压缩为GZIP,URI:file_name * 然后,您可以通过执行以下步骤将它们组合回来:

在Windows中:

  1. 在最后添加.zip所有这些文件。

  2. 使用7-zip解压缩第一个.zip文件,名称为" ... 000000000000",然后它会自动检测所有其余的.zip文件。这就像解压缩分割的.zip文件的正常方法一样。

  3. 在Ubuntu中:

    我无法按照我在互联网上找到的方法解压缩文件。如果我搞清楚,会更新答案。