来自云存储的bq负载缓慢

时间:2012-08-27 14:57:05

标签: google-bigquery google-cloud-storage

我正在尝试从Cloud Storage向BigQuery上传多个文件。压缩文件约为3.8GB(未压缩16GB),但在我收到错误字符错误之前,该工作耗时12402秒。

Job cloudsql-sigma:job_9e4f13da43b649fe86b6410887c8d2c7

  Job Type    State      Start Time      Duration   Bytes Processed   
  load       FAILURE   27 Aug 12:27:21   3:24:17                     

Errors encountered during job execution. Too many errors encountered. Limit is: 0.
Failure details:
  - Bad character (ASCII 0) encountered. Rest of file not processed.

为什么需要这么长时间?

1 个答案:

答案 0 :(得分:2)

目前存在一个错误地认为某些压缩文件格式错误的漏洞。 - 我们在文件末尾得到一个ascii 0并失败。我们重试了两次,所以真正发生的事情是我们处理文件3次,每次大约需要一个小时。在68分钟内16gb大约是4MB /秒 - 这比我预期的要慢,但不是很糟糕。

如果您希望导入速度更快,我建议将其拆分为较小的部分,并在作业中单独列出这些文件。它们将被并行处理。

与此同时,我将尝试将文件末尾的ascii 0修复为本周发布的BigQuery。