如何在Google BigQuery中导出公共维基百科表?

时间:2012-07-06 10:08:42

标签: export wikipedia google-bigquery

我正在使用Google BigQuery,它提供的公共示例表很少。 其中之一是维基百科修订历史[publicdata:samples.wikipedia]

出于某些测试目的,我想将其导出并保存到Google云端存储中。

但如果我在Googel BigQuery中运行导出作业,它将运行5个小时并且作业失败:(

仅返回消息 的错误: 后端错误。工作中止。

可能是因为数据大小约为35GB。 所有其他提供的样本都少于25 GB,我已成功将它们导出到Google云端存储。

有谁知道问题是什么以及如何解决它?

1 个答案:

答案 0 :(得分:1)

看起来导出作业超时会在2小时后杀死它们(然后重试两次)。因为我们当前按顺序处理导出(即我们一次读取并转换一行数据并写出单个文件),如果结果很大,则可能需要很长时间才能处理。

如果您提供文件glob模式(例如gs://foo/bar*)作为目标路径,BigQuery可以将导出拆分为多个并且并行执行,从而减少了提取时间。

最近的更改也会使导出过程更快。