我在S3中有json.gz文件。文件大小从几公斤到300MB(压缩)不等。
尝试使用下一个命令将它们全部加载到Redshift中:
copy my_table from 's3://my-bucket/'
access_key_id 'qqq'
secret_access_key 'qqq'
dateformat 'auto'
timeformat 'epochsecs'
COMPUPDATE ON
gzip json 's3://another-bucket/json_paths.json'
my_table 具有使用 json_paths.json 指定的字段。 我尝试了几次,并且仅一次就完全加载了,而s3存储桶和表结构没有任何变化。现在,它总是停止大约300M条记录,而不是总共800M条记录,并显示声明未能完成执行。
SELECT * FROM stl_load_errors
显示0条记录,因此我没有发生任何事情的信息。
集群从4个节点扩展到8个节点,并在6个节点上成功,但几次尝试仅成功一次,甚至在8个节点上也失败了(魔术!) 未压缩数据的总大小约为130GB,因此群集要大得多。
毫无疑问,数据还可以! 还尝试按前缀加载(文件具有前缀,例如“ data_2016_01_01.gz”,“ data_2017_12_17.gz”之类),这样我就可以逐年加载,例如,它可以正常工作!
问题是:
如果 stl_load_errors 为空
,则查看失败原因的位置