使用bq load加载带有1000万条记录的1.3Gb json文件时出现此类错误--source_format = NEWLINE_DELIMITED_JSON
如果我只将前100万条记录放入一个单独的文件中,它会正常加载,但是当我尝试在完整文件上运行时,我会得到这个:
当前状态:待定
在加载操作中等待bqjob_r6ac3e4 BigQuery错误:错误 处理工作 'my-project-prod:bqjob_r6ac3e4da72b48e4f_000001528037b394_1':太多了 遇到错误。限制是:0。失败详情: - 文件:0:发生内部错误,无法完成请求。
我已经能够加载其他大型表,但是当我去加载这个时总是会出现这个错误。有没有办法解决这个问题,除了将文件分成越来越小的部分以试图找到有问题的行?
答案 0 :(得分:3)
查看我们关于你的工作的日志bqjob_r6ac3e4da72b48e4f_000001528037b394_1,好像我们无法读取第一个文件(也许是其他文件,但它抱怨第一个文件)。
文件是否被压缩?当文件被压缩得有些不正确时,我们在过去看到过类似的错误。
当然可能是其他问题。但我现在没有足够的信息。如果您可以与我们分享其他失败的工作ID,将会很有帮助。如果那些导入作业与文件0一致失败,我可以帮助您检查我们的后端。谢谢!
答案 1 :(得分:0)
如果您在BigQuery的Web UI中找到工作,它应该会向您显示前五个错误。这些可能有用也可能没用。
此外,您可以将允许的最大错误记录数设置为非常高的数字(10,000,000)。这样,只会跳过违规行,您可以尝试通过检查结果来识别它们。 (在Java api中,这是方法JobConfigurationLoad.setMaxBadRecords(int)
,如果您使用命令行,则它是--max_bad_records=int
选项。
答案 2 :(得分:0)
根据链接: https://cloud.google.com/bigquery/docs/loading-data#limitations
当前,当您将数据加载到BigQuery中时,gzip是唯一的 CSV和JSON文件支持的文件压缩类型。
正如您提到的那样,您尝试加载bzip(不支持的格式)时,可能会收到错误消息。尝试解压缩文件并加载它,可能会有所帮助。