如何避免在将云存储文件加载到BigQuery时出现internalError

时间:2015-04-30 06:46:05

标签: google-bigquery google-cloud-storage

加载Google云端存储文件时出现internalError。

$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz

工作状态为

{
    "state": "DONE",
    "errorResult": {
        "reason": "internalError",
        "message": "Backend error. Job aborted."
    }
}

即使我重试加载相同的文件,也会失败。

$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz
Errors encountered during job execution. Backend error. Job aborted.
# Retry
$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz
Errors encountered during job execution. Backend error. Job aborted.

我每天使用相同的GCS-bucket和相同的数据格式运行48个加载作业。然后大约4~5个工作失败。我找不到无效的数据记录。我从2015年1月起使用相同的GCP项目和GCS桶,这个internalError在4月8日之后得到。

但我找到了解决方法。 (一旦下载到本地并加载它)

$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 gs://xxxx/yyyy.gz
Errors encountered during job execution. Backend error. Job aborted.
$ gsutil cp gs://xxxx/yyyy.gz ./yyyy.gz
$ bq load --source_format NEWLINE_DELIMITED_JSON xx_20150430 ./yyyy.gz
SUCCESS

Sumarry

  • 我从4月8日起每天都会收到internalError。
  • 内部错误导致约10%的作业失败。 (我每天制作48个使用相同GCS桶的装载作业)
  • 即使我重试失败的作业,我每次都会收到internalError。
  • 从CloudStorage下载导致internalError的文件,并使用bq命令加载它。然后成功。

其他信息

我的项目ID是VG-zucks-zgok和的JobId之一是zgok_deliver_log_production-rd_20150427-5920de503013708e38505aa2a936f48f8ea44c374eebe72346c2376b21607fce

0 个答案:

没有答案