我正在尝试创建Redshift中表格将使用多少空间的估计值,但是,我找到的唯一资源是计算最小表格大小:
https://aws.amazon.com/premiumsupport/knowledge-center/redshift-cluster-storage-space/
这个估计的目的是我需要计算具有以下维度的表将占用多少空间而不会耗尽Redshift上的空间(即它将定义我们最终使用的节点数)
行:~500亿(确切的行数已知) 列:15(数据类型已知)
我们非常感谢您估算此尺寸的任何帮助。
谢谢!
答案 0 :(得分:2)
您引用的文章(Why does a table in my Amazon Redshift cluster consume more disk storage space than expected?)可以很好地解释如何使用存储空间。
预测存储的主要困难是预测压缩效率。根据您的数据,Amazon Redshift将选择适当的Compression Encoding,以减少数据所需的存储空间。
压缩还可以使用区域地图极大地提高Amazon Redshift查询的速度,该选项可识别每个1MB块中存储的最小值和最大值。高度压缩的数据将存储在更少的块上,因此在查询执行期间需要从磁盘读取更少的块。
估算存储空间的最佳方法是加载数据的子集(例如10亿行),允许Redshift自动选择压缩类型,然后推断到您的完整数据大小。