将大型CSV加载到Google BigQuery时出错

时间:2017-06-27 15:52:20

标签: csv cloud google-bigquery

将大型CSV加载到bigquery时出错。我在网上看到的每个地方都看到压缩文件的大小限制为5GB,但对CSV没有限制。

加载操作中的BigQuery错误:处理作业'bqjob_r3016bbfad3037f_0000015cea1a1eff_1'时出错:输入CSV文件不可拆分且 至少有一个文件大于允许的最大大小。大小为:24686861596。允许的最大尺寸为:4294967296。

2 个答案:

答案 0 :(得分:3)

BigQuery文档列出了导入作业的各种限制:https://cloud.google.com/bigquery/quota-policy#import 特别指出,压缩CSV文件的限制为4 GB。

关于"不可拆分"的错误消息CSV文件有两种情况:

  1. CSV文件已压缩
  2. 其中一个字段中存在引用字符不匹配,这使得它在该字段中看起来像非常长字符串,也使得文件不可拆分(这是您的情况下可能发生的情况)。

答案 1 :(得分:3)

试试这个:

  • 关闭引用
  • 将分隔字符设置为不存在的字符。

bq help load

--quote: Quote character to use to enclose records. Default is ". To indicate no quote character at all, use an empty string.
-F,--field_delimiter: The character that indicates the boundary between columns in the input file. "\t" and "tab" are accepted names for tab.

这会将每个CSV行导入一列表。之后在BigQuery中拆分(使用REGEXP_EXTRACT()SPLIT()或JavaScript UDF)。