我的4节点(每个节点{dc2.large 160 GB
存储)Redshift群集的存储空间约为75%,因此我又添加了2个节点,总共有6个节点,并且我期望磁盘使用率会下降降低到50%左右,但是进行了上述更改后,磁盘使用率仍然保持在75%(即使在几天后和VACUUM
之后)。
4 * 160的75%= 480 GB的数据
6 * 160 = 960的新配置中的可用存储空间,这意味着它应该已降至480/960,即磁盘使用率接近50%。
我还检查了是否有正在使用DISTSTYLE ALL
的大表,这会导致跨节点的数据复制,但是与总存储容量相比,我所拥有的表的大小非常小,因此我认为它们不会对存储产生任何重大影响。
由于我不想添加更多节点然后又在相同情况下再次登陆,我该怎么做以减少存储使用量?
答案 0 :(得分:1)
听起来您的表受到最小表大小的影响。这可能是违反直觉的,但是您通常可以通过将小表转换为DISTSTYLE ALL来减小它们的大小。
https://aws.amazon.com/premiumsupport/knowledge-center/redshift-cluster-storage-space/
答案 1 :(得分:0)
您能说明一些较大的表格使用的是哪种分配方式吗?
如果您未指定分发样式,则Redshift将自动选择一个分发样式(请参见here),并且有可能首先选择ALL
分发并且仅切换到EVEN
或达到磁盘使用率%的KEY
分发。
还,您是否运行过ANALYZE
命令以确保表统计信息是最新的?