带有空stl_load_errors的JSON“声明未能完成执行”中的Redshift副本

时间:2019-10-03 06:37:50

标签: amazon-s3 bigdata amazon-redshift

我在S3中有json.gz文件。文件大小从几公斤到300MB(压缩)不等。

尝试使用下一个命令将它们全部加载到Redshift中:

copy my_table from 's3://my-bucket/'
access_key_id 'qqq'
secret_access_key 'qqq'
dateformat 'auto'
timeformat 'epochsecs'
COMPUPDATE ON
gzip json 's3://another-bucket/json_paths.json'

my_table 具有使用 json_paths.json 指定的字段。 我尝试了几次,并且仅一次就完全加载了,而s3存储桶和表结构没有任何变化。现在,它总是停止大约300M条记录,而不是总共800M条记录,并显示声明未能完成执行

SELECT * FROM stl_load_errors

显示0条记录,因此我没有发生任何事情的信息。

集群从4个节点扩展到8个节点,并在6个节点上成功,但几次尝试仅成功一次,甚至在8个节点上也失败了(魔术!) 未压缩数据的总大小约为130GB,因此群集要大得多。

毫无疑问,数据还可以! 还尝试按前缀加载(文件具有前缀,例如“ data_2016_01_01.gz”,“ data_2017_12_17.gz”之类),这样我就可以逐年加载,例如,它可以正常工作!

问题是:

如果 stl_load_errors 为空

,则查看失败原因的位置

0 个答案:

没有答案