有没有人知道一种方法,用于根据星型模式数据仓库获取OLAP多维数据集的大小。基于维度数量,维度表中的记录数量和事实记录数量以及最终聚合或不同记录的数量等等。
我正在查看的数据库有一个超过200亿行的事实表和一些2000万,7000万和13亿行的维度表。
由于 尼古拉斯
答案 0 :(得分:3)
我可以看到创建此估算的一些障碍。单独了解维度表的行数和基数并不像它们之间的关系那么重要。
想象一下两个低基数维度,分别具有n
和m
个唯一值。在这些维度上缓存OLAP聚合会产生从n + m
值到n * m
值的任何值,具体取决于关系与纯双射的接近程度。只给出您提供的信息,您可以说最终只有少于3.64 * 10^34
的值,这不是很有用。
我很悲观,算法足够快,生成立方体并在完成时权衡它会更有意义。
答案 1 :(得分:2)
我们写了一篇似乎相关的研究论文:
Kamel Aouiche和Daniel Lemire,OLAP中五种概率视图大小估计技术的比较,DOLAP 2007,第17-24页,2007年。 http://arxiv.org/abs/cs.DB/0703058
答案 2 :(得分:0)
好。您可以使用Analysis Services数据的一般规则,该数据大约是存储在关系数据库中的相同数据的1/4 - 1/3。
爱德华。