在进行直接从GCS到bigquery的文件摄取测试时,我们获得了比流式插入更好的性能。但是,表现也会波动得更多,
例如,我们测试了将大型CSV加载到BQ(10M行,2GB):第一次加载2.275分钟,第二次加载约8分钟。为什么进口时间有这么大的波动?
https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs#configuration.load
更新:结果是阈值的变化:
原来它取决于MaxError
属性。我在2分钟内导入CSV的时间是MaxError太低而一些错误(如太长的字段)阻止它完全解析CSV文件。我从那以后将MaxError提高到1000。
尝试了几次,使用此阈值设置完成解析需要7到8分钟。