我已经徒劳地试了将近两天加载两个大型数据集,每个数据集大约30GB / s,并且每个数据集分成50个未压缩的~600MB文件,所有这些都来自一个桶。几乎所有工作都会因“内部”或“后端”错误而失败。
我尝试使用外卡提交(如在* csv中),我也尝试过单个文件。
在极少数情况下,装载作业在几分钟内不会失效,最终会在6或7小时后死亡。
我已拆分文件并将其解压缩以帮助加载时间,这是否会导致问题?我昨天在大约7个小时后成功加载了压缩版本,但到目前为止我只能从桶中加载一个未压缩的350 MB CSV。
以下是一个例子:
错误: 执行期间遇到错误。重试可以解决问题。 (错误代码:backendError) 工作ID bvedemo:bquijob_64ebebf1_1532f1b3c4f
后端错误意味着谷歌正在发生一些事情,但我必须做错事才能让它经常失败!
答案 0 :(得分:2)
当天的课程:不要尝试将近线存储桶中的数据加载到BigQuery中。
我将数据移动到标准存储桶中,从那里重新加载,并在不到1分钟内加载65GB数据。