Question

我运行此命令将11个文件加载到Bigquery表：

bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part* /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt

我收到了这个错误：

等待bqjob_r46f38146351d545_00000147ef890755_1 ...（11s）当前状态：DONE 加载操作中的BigQuery错误：处理作业时出错＆＃39; ardent-course-601：bqjob_r46f38146351d545_00000147ef890755_1＆＃39;：遇到太多错误。限制是：0。失败详情： - 文件：5：意外。请再试一次。

之后我尝试了很多次但仍然遇到了同样的错误。

要调试出错的地方，我会将每个文件逐个加载到Bigquery表中。例如：

/usr/local/bin/bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part-m-00011.gz /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt

共有11个文件，每个文件都运行良好。

有人可以帮忙吗？这是Bigquery方面的错误吗？

谢谢。

Answer 1

读取其中一个文件时出错：gs://...part-m-00005.gz

查看导入日志，似乎gzip阅读器在解压缩文件时遇到错误。

看起来该文件可能实际上没有被压缩。 BigQuery对列表中第一个文件的标头进行采样，以确定它是处理压缩文件还是未压缩文件并确定压缩类型。当您一次导入所有文件时，它只对第一个文件进行采样。

当你单独运行文件时，bigquery读取文件的标题并确定它实际上没有被压缩（尽管有后缀'.gz'）所以将它作为普通的平面文件导入。

如果您运行的加载不会混合压缩和未压缩的文件，则它应该可以成功运行。

如果您认为情况并非如此，请告诉我，我会再深入了解一下。

加载到Bigquery表时出现内部错误

1 个答案: