我运行此命令将11个文件加载到Bigquery表:
bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part* /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt
我收到了这个错误:
等待bqjob_r46f38146351d545_00000147ef890755_1 ...(11s)当前状态:DONE 加载操作中的BigQuery错误:处理作业时出错' ardent-course-601:bqjob_r46f38146351d545_00000147ef890755_1':遇到太多错误。限制是:0。 失败详情: - 文件:5:意外。请再试一次。
之后我尝试了很多次但仍然遇到了同样的错误。
要调试出错的地方,我会将每个文件逐个加载到Bigquery表中。例如:
/usr/local/bin/bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part-m-00011.gz /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt
共有11个文件,每个文件都运行良好。
有人可以帮忙吗?这是Bigquery方面的错误吗?
谢谢。
答案 0 :(得分:0)
读取其中一个文件时出错:gs://...part-m-00005.gz
查看导入日志,似乎gzip阅读器在解压缩文件时遇到错误。
看起来该文件可能实际上没有被压缩。 BigQuery对列表中第一个文件的标头进行采样,以确定它是处理压缩文件还是未压缩文件并确定压缩类型。当您一次导入所有文件时,它只对第一个文件进行采样。
当你单独运行文件时,bigquery读取文件的标题并确定它实际上没有被压缩(尽管有后缀'.gz')所以将它作为普通的平面文件导入。
如果您运行的加载不会混合压缩和未压缩的文件,则它应该可以成功运行。
如果您认为情况并非如此,请告诉我,我会再深入了解一下。