我有一个生产Redshift集群,上面有大量数据。我想为群集创建一个“虚拟”副本,该副本可用于临时开发和测试各种数据管道。该副本将具有所有生产模式/表,但每个表中只有一小部分记录(例如,每个表限制为10,000行)。
创建这样的副本并定期刷新(如果生产模式发生更改)的一种好方法是什么?有没有一种方法可以创建每个表都有限制的群集快照?
到目前为止,我的想法是创建一个新集群,并使用定义为here的某些管理视图来自动获取架构/表等的DDL,并编写生成UNLOAD语句的脚本(对数量有限制)记录)。然后,我可以使用它们来填充我的开发集群。但是我觉得必须有一个更清洁的解决方案。
答案 0 :(得分:1)
我认为您的基本目标是节省成本。这需要与管理工作(您的时间花费多少?)保持平衡。
生成集群的完整副本(从备份还原)可能会更便宜,但在夜晚/周末将其关闭以节省资金。如果您使恢复过程自动化,甚至可以安排它在开始工作之前就开始。
这样,您将拥有生产系统的完整副本,并具有有效的零管理开销(一旦编写了两个脚本来创建/删除集群),就可以节省75%的费用(每周168个小时中的40个小时)。另外,每次创建新集群时,它都包含快照中的最新数据,因此无需使其保持“同步”。
最简单的解决方案通常是最好的。