Google BigQuery是否支持Parquet文件格式?

时间:2015-10-27 13:45:48

标签: google-bigquery parquet

我想知道Google BigQuery目前是否支持Parquet file format,或者是否有计划支持它?

我知道它目前支持CSV和JSON格式。

5 个答案:

答案 0 :(得分:8)

** 自2018年3月1日起,可以获得对loading Parquet 1.0 files的支持。

在BigQuery CLI中,有--source_format PARQUET选项,在bq --help的输出中有描述。

我从来没有使用它,因为当我尝试使用此功能时,它仍然只是邀请,我没有请求邀请。

我的用例是Parquet文件的大小是Avro文件的一半。我想尝试新的东西并有效地上传数据(按此顺序)。

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json 
Upload complete.
Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current 
status: DONE   
[...]

答案 1 :(得分:1)

此时BigQuery不支持Parquet文件格式。但是,我们有兴趣了解有关您的用例的更多信息 - 您是对进口,出口还是两者都感兴趣?你打算如何使用它?更好地理解场景将有助于BigQuery团队相应地进行规划。

答案 2 :(得分:1)

如果要在BigQuery和Hadoop之间共享文件格式,可以使用换行符分隔的JSON记录。

BigQuery支持导入和导出。

Hadoop也支持这一点。搜索互联网会发现许多点击显示使其工作的配方。这是一个:Processing JSON using java Mapreduce

答案 3 :(得分:0)

当你处理数亿行并需要将数据移动到内部部署的Hadoop集群时,这就是从bigQuery导出,json只是不可行的选择,avro不是更好,是今天唯一有效的选择对于这样的数据移动是gz,遗憾的是不能在Hadoop中本地读取,Larquet是这个用例的唯一有效方式,我们没有任何其他有效选项

答案 4 :(得分:0)

示例(此处是 part-* 的秘密调味料):

bq load --source_format=PARQUET --replace=true abc.def gs://abc/def/part-*