我的组织正在使用 AWS Redshift 和 S3 评估混合数据仓库的选项。目标是处理数据本地并将处理后的副本发送到 S3 ,然后加载到 Redshift 进行可视化。
由于我们处于初始阶段,因此尚未设置文件/存储网关。
最初我们使用 Informatica Cloud 工具将内部部署服务器上的数据上传到 AWS S3 ,但需要很长时间。历史数据量为几亿条记录,每日增量记录为数千条记录。
现在,我使用 AWS CLI 创建了自定义UNIX脚本,并使用 CP 命令在本地服务器和 AWS S3 之间传输文件 gzip 压缩格式。
此选项工作正常。 但是想从专家那里了解,如果这是正确的做法,或者是否有任何其他优化方法可以实现这一目标。
答案 0 :(得分:0)
如果您的数据量超过100 MB,那么AWS建议使用Multipart上传以获得更好的性能。 您可以参考以下内容以获得此优势 AWS Java SDK to upload large file in S3