我正在考虑使用AWS Redshift让用户针对我的网页中无法使用的旧存档数据提交查询。
我在所有用户中处理的总数据是几兆兆字节。数据已经在一个s3存储桶中,按周拆分成文件。大多数请求都不会处理超过100GB的文件。
如果我使用快照并在不使用时删除我们的群集,或者我应该拥有一个不包含所有数据的小型群集,并且在运行时只将来自S3的COPY数据复制到临时表中,那么可以降低成本查询?
答案 0 :(得分:0)
如果您只是偶尔进行成本比速度更重要的查询,可以考虑使用Amazon Athena,它可以查询存储在Amazon S3中的数据。 (目前仅限于某些AWS区域。)您只需为从磁盘读取的数据量付费。
要让雅典娜获得更高的价值,请参阅:Analyzing Data in S3 using Amazon Athena
Amazon Redshift Spectrum可以执行与Athena类似的工作,但需要运行Amazon Redshift群集。
所有其他选择实际上都是在成本和数据访问之间进行权衡。您可以先启动Amazon Redshift数据库的快照,然后在晚上和周末关闭。然后,有一个脚本可以自动恢复它以进行查询。 使用更少的节点来降低成本 - 这会降低查询速度,但这对您来说似乎不是问题。