Question

我在S3中有json.gz文件。文件大小从几公斤到300MB（压缩）不等。

尝试使用下一个命令将它们全部加载到Redshift中：

copy my_table from 's3://my-bucket/'
access_key_id 'qqq'
secret_access_key 'qqq'
dateformat 'auto'
timeformat 'epochsecs'
COMPUPDATE ON
gzip json 's3://another-bucket/json_paths.json'

my_table 具有使用 json_paths.json 指定的字段。我尝试了几次，并且仅一次就完全加载了，而s3存储桶和表结构没有任何变化。现在，它总是停止大约300M条记录，而不是总共800M条记录，并显示声明未能完成执行。

SELECT * FROM stl_load_errors

显示0条记录，因此我没有发生任何事情的信息。

集群从4个节点扩展到8个节点，并在6个节点上成功，但几次尝试仅成功一次，甚至在8个节点上也失败了（魔术！）未压缩数据的总大小约为130GB，因此群集要大得多。

毫无疑问，数据还可以！还尝试按前缀加载（文件具有前缀，例如“ data_2016_01_01.gz”，“ data_2017_12_17.gz”之类），这样我就可以逐年加载，例如，它可以正常工作！

问题是：

如果 stl_load_errors 为空

，则查看失败原因的位置

带有空stl_load_errors的JSON“声明未能完成执行”中的Redshift副本

0 个答案: