将大型CSV加载到bigquery时出错。我在网上看到的每个地方都看到压缩文件的大小限制为5GB,但对CSV没有限制。
加载操作中的BigQuery错误:处理作业'bqjob_r3016bbfad3037f_0000015cea1a1eff_1'时出错:输入CSV文件不可拆分且 至少有一个文件大于允许的最大大小。大小为:24686861596。允许的最大尺寸为:4294967296。
答案 0 :(得分:3)
BigQuery文档列出了导入作业的各种限制:https://cloud.google.com/bigquery/quota-policy#import 特别指出,压缩CSV文件的限制为4 GB。
关于"不可拆分"的错误消息CSV文件有两种情况:
答案 1 :(得分:3)
试试这个:
bq help load
:
--quote: Quote character to use to enclose records. Default is ". To indicate no quote character at all, use an empty string.
-F,--field_delimiter: The character that indicates the boundary between columns in the input file. "\t" and "tab" are accepted names for tab.
这会将每个CSV行导入一列表。之后在BigQuery中拆分(使用REGEXP_EXTRACT()
,SPLIT()
或JavaScript UDF)。