在BQ中摄取csv文件时间

时间:2017-03-29 21:15:07

标签: csv google-bigquery

在进行直接从GCS到bigquery的文件摄取测试时,我们获得了比流式插入更好的性能。但是,表现也会波动得更多,

例如,我们测试了将大型CSV加载到BQ(10M行,2GB):第一次加载2.275分钟,第二次加载约8分钟。为什么进口时间有这么大的波动?

https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs#configuration.load

更新:结果是阈值的变化:

原来它取决于MaxError属性。我在2分钟内导入CSV的时间是MaxError太低而一些错误(如太长的字段)阻止它完全解析CSV文件。我从那以后将MaxError提高到1000。

尝试了几次,使用此阈值设置完成解析需要7到8分钟。

1 个答案:

答案 0 :(得分:2)

Load基本上是对联合数据源的查询,结果保存到目标表。查询的性能取决于后端系统的负载。费利佩在BigQuery Performance中解释了这一点。