加载到Bigquery表时出现内部错误

时间:2014-08-19 18:57:23

标签: google-bigquery

我运行此命令将11个文件加载到Bigquery表:

bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part* /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt

我收到了这个错误:

  

等待bqjob_r46f38146351d545_00000147ef890755_1 ...(11s)当前状态:DONE   加载操作中的BigQuery错误:处理作业时出错' ardent-course-601:bqjob_r46f38146351d545_00000147ef890755_1':遇到太多错误。限制是:0。   失败详情:    - 文件:5:意外。请再试一次。

之后我尝试了很多次但仍然遇到了同样的错误。

要调试出错的地方,我会将每个文件逐个加载到Bigquery表中。例如:

/usr/local/bin/bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part-m-00011.gz /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt

共有11个文件,每个文件都运行良好。

有人可以帮忙吗?这是Bigquery方面的错误吗?

谢谢。

1 个答案:

答案 0 :(得分:0)

读取其中一个文件时出错:gs://...part-m-00005.gz

查看导入日志,似乎gzip阅读器在解压缩文件时遇到错误。

看起来该文件可能实际上没有被压缩。 BigQuery对列表中第一个文件的标头进行采样,以确定它是处理压缩文件还是未压缩文件并确定压缩类型。当您一次导入所有文件时,它只对第一个文件进行采样。

当你单独运行文件时,bigquery读取文件的标题并确定它实际上没有被压缩(尽管有后缀'.gz')所以将它作为普通的平面文件导入。

如果您运行的加载不会混合压缩和未压缩的文件,则它应该可以成功运行。

如果您认为情况并非如此,请告诉我,我会再深入了解一下。