我使用AWS将{S3}桶中的COPY
日志文件发送到Redshift群集中的表。每个文件大约有100MB,我还没有'gziped'
。我现在有600个这样的文件,而且还在增长。我的群集有2个dc1.large
个计算节点和一个领导节点。
问题是,COPY
操作时间太长,至少40分钟。加快速度的最佳方法是什么?
1)为节点获取更多节点或更好的机器?
2)如果我gzip文件,它在COPY
操作时间增益方面真的很重要吗?
3)这是一些有用的设计模式吗?
答案 0 :(得分:4)
的Rodrigo,
以下是答案:
1 - 在更改硬件设置之前,您可以进行一些优化。您必须进行测试,但在确保完成所有优化后,如果仍需要更好的性能,我建议使用更多节点。
2 - Gzipped文件可能会提升性能。但我怀疑您还需要先做其他优化。请参阅Redshift文档中的此建议:http://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-compress-data-files.html
3 - 以下是您应该按重要性顺序查看的内容:
即使在双节点群集中,我预计60GB的负载也会比你看到的更快。检查这6项,告诉我们。
由于
@BigDataKid