BigQuery加载在较大的CSV文件上失败

时间:2016-08-10 14:21:14

标签: csv unix google-bigquery amazon-redshift

我在Google的BigQuery上加载更大的文件时遇到了问题。问题是当我加载少于1000行的文件时,它加载没有任何错误,但当我加载文件超过10000行时,我收到加载错误。

Hi, my name is Mark.
Hi, my name is Steve.

工作是从Redshift导出数据并将其加载到BigQuery中。以下是我的工作方式(步骤):

BigQuery error in load operation: Error processing job '......': Too many errors encountered.

注意:我在Redshift中使用了几乎所有选项"卸载"命令,但似乎BigQuery不理解更大文件的文件格式。

有人能说出这里可能出现的问题吗?

1 个答案:

答案 0 :(得分:2)

由于手头的任务是从Redshift导出到BigQuery,您是否尝试过自动执行此过程的工具?

https://github.com/iconara/bigshift

来自他们的自述文件:

  

Redshift的UNLOAD生成的CSV无法加载到BigQuery no   无论你在两端指定什么选项。 Redshift可以引用所有内容   字段或无,但BigQuery不允许非字符串字段   引。布尔值和时间戳的格式不兼容,并且   他们希望引用字段中的引号能够以不同的方式进行转义   一些事情。

     

这意味着BigShift的很多功能都是确保数据   从Redshift转储的与BigQuery兼容。去做这个   它读取表模式并转换不同的数据类型   数据被转储。报价被转义,时间戳格式化等等   上。