行大于允许的最大大小

时间:2015-05-17 12:51:33

标签: google-bigquery

我已经多次成功导入了许多gzip压缩文件。对于两个文件BQ import choked。两个文件都报告了同样的错误:

  

文件:0 /偏移:0 /行:1 /列:20971521,行大于允许的最大大小

现在我已经读到了20MB的行限制,我知道上面的数字是20MB + 1但真正让我感到困惑的是它的含义完全没有了。我的GZ拥有数百万个JSON(每个都在一个新线上)。我编写了一个脚本来测量失败的GZ文件中的最长行(最长的JSON),发现它是103571字节。为什么BQ导入会窒息呢?

我已经检查过最长的JSON,看起来很正常。我该如何解释错误?我该如何解决?

为什么当文件中有数百万行时,BQ认为导入是在第1行第20971521行?

2 个答案:

答案 0 :(得分:0)

您的所有调查都是正确的,但您必须检查您的文件,因为未识别新线路,并且BQ海域全部导入为大线。

这就是为什么它会报告问题的第20971521栏。

您应该尝试从文件中导入样本。

答案 1 :(得分:0)

这里的一些答案给了我一个想法,所以我继续尝试了。似乎由于某些奇怪的原因BQ不喜欢行结尾所以我写了一个快速脚本来重写原始输入文件以使用行结尾。自动导入工作!

考虑到我已经使用纯行结尾导入了许多GB的数据,这是完全奇怪的。

我很高兴它有效,但我无法猜到为什么。我希望这有助于其他人。