我正在使用Google BigQuery,它提供的公共示例表很少。 其中之一是维基百科修订历史[publicdata:samples.wikipedia]
出于某些测试目的,我想将其导出并保存到Google云端存储中。
但如果我在Googel BigQuery中运行导出作业,它将运行5个小时并且作业失败:(
仅返回消息 的错误: 后端错误。工作中止。
可能是因为数据大小约为35GB。 所有其他提供的样本都少于25 GB,我已成功将它们导出到Google云端存储。
有谁知道问题是什么以及如何解决它?
答案 0 :(得分:1)
看起来导出作业超时会在2小时后杀死它们(然后重试两次)。因为我们当前按顺序处理导出(即我们一次读取并转换一行数据并写出单个文件),如果结果很大,则可能需要很长时间才能处理。
如果您提供文件glob模式(例如gs://foo/bar*
)作为目标路径,BigQuery可以将导出拆分为多个并且并行执行,从而减少了提取时间。
最近的更改也会使导出过程更快。