应用错误收集

时间：2019-11-28 12:24:14

标签： amazon-redshift

我的4节点（每个节点{dc2.large 160 GB存储）Redshift群集的存储空间约为75％，因此我又添加了2个节点，总共有6个节点，并且我期望磁盘使用率会下降降低到50％左右，但是进行了上述更改后，磁盘使用率仍然保持在75％（即使在几天后和VACUUM之后）。

4 * 160的75％= 480 GB的数据

6 * 160 = 960的新配置中的可用存储空间，这意味着它应该已降至480/960，即磁盘使用率接近50％。

该图像显示了添加两个节点之前和之后的磁盘空间百分比。

我还检查了是否有正在使用DISTSTYLE ALL的大表，这会导致跨节点的数据复制，但是与总存储容量相比，我所拥有的表的大小非常小，因此我认为它们不会对存储产生任何重大影响。

由于我不想添加更多节点然后又在相同情况下再次登陆，我该怎么做以减少存储使用量？

答案 0 :(得分：1)

听起来您的表受到最小表大小的影响。这可能是违反直觉的，但是您通常可以通过将小表转换为DISTSTYLE ALL来减小它们的大小。

答案 1 :(得分：0)

您能说明一些较大的表格使用的是哪种分配方式吗？

如果您未指定分发样式，则Redshift将自动选择一个分发样式（请参见here），并且有可能首先选择ALL分发并且仅切换到EVEN或达到磁盘使用率％的KEY分发。

还，您是否运行过ANALYZE命令以确保表统计信息是最新的？