我向Google BigQuery提交了一个加载作业,该文件从Google云存储中加载了12个压缩(gzip)表格文件。每个文件大约压缩2个演出。我运行的命令类似于:
bq load --nosync --skip_leading_rows=1 --source_format=CSV
--max_bad_records=14000 -F "\t" warehouse:some_dataset.2014_lines
gs://bucket/file1.gz,gs://bucket/file2.gz,gs://bucket/file12.gz
schema.txt
我从BigQuery加载作业收到以下错误,但没有解释原因:
错误原因:internalError。获取有关此错误的更多信息 故障排除:internalError。
错误:意外。请再试一次。
我确定架构文件格式正确,因为我使用相同的架构但不同的文件集成功加载了文件。
我想知道在这种情况下会出现这样的内部错误,以及我可以采取哪些方法来调试此问题?
我的BQ工作ID:bqjob_r78ca777a8ad4bdd9_0000014e2dc86e0e_1
谢谢!
答案 0 :(得分:1)
在某些情况下,您可以使用大型.gz输入文件,这些文件并非总是以明确原因报告。特别是(但不是唯一地)使用高度可压缩的文本会发生这种情况,因此1 GB的压缩数据代表了异常大量的文本。
压缩CSV / JSON的this page的文档限制为1 GB。如果这是最新的,我实际上会期望你的2 GB输入有错误。让我检查一下。
您是否可以将这些文件拆分成更小的部分并重试?
(Meta:格雷斯,你是正确的,谷歌says“Google工程师使用标签google-bigquery监控并回答问题”。我是Google工程师,但这里也有很多知识渊博的人谷歌的文档也许可以提供更明确的指导:对StackOverflow社区最有价值的问题是未来的人可以识别他们正在看到同样的问题的问题,并且最好是非Google员工可以从公共信息。在你的情况下这很难,因为错误是广泛的,原因不明确。但如果你能够使用你可以公开的输入文件重现问题,那么更多的人将能够在问题。您也可以file an issue查询谷歌以外的任何人都无法解决的问题。)