我想知道你是否可以告诉我应该为我的场景使用哪些NoSQL数据库或技术/工具。我们正在考虑使用开源技术替换基于SQL Server Analysis服务的OLAP多维数据集,因为数据变得太大而无法管理,查询需要很长时间才能返回。我们已按照本书中的每条规则对数据进行分片,使用聚合和分区等优化多维数据集的设计,并且我们的一些独特的计数查询需要1-2分钟:(我们的事实表的数据大小大致是250GB。并且以星型模式方式连接了10-12个维度。
因此,我们决定尝试使用Hadoop / HBase / NoSQL dbs等开源技术,看看他们是否可以通过最少的设置和入门来解决我们的OLAP场景。
我们对新技术的主要要求是
必须为不同的计数查询(<2秒)获得快速或即时的结果
支持度量和维度的概念(如OLAP中)。
由于今天开源世界中有如此多的新技术和工具,我希望你能帮我指出正确的方向。
答案 0 :(得分:4)
注意:我来自Apache Kylin团队。
请参考以下答案,可能会为您带来一些想法:
我们对新技术的主要要求是 它必须为不同的计数查询获得快速或即时的结果(<2秒)
- Luke:90%的图块查询延迟小于5秒是我们当前的统计数据。对于&lt; 2s on distinct count,您将拥有多少数据?近似结果好吗?
支持度量和维度的概念(如OLAP中)。
- Luke:Kylin是纯OLAP引擎,它具有维度(也支持层次结构)和度量(Sum / Count / Min / Max / Avg / DistinctCount)定义
支持SQL之类的查询语言,因为我们的许多开发人员都是SQL专家。 --Luke:Kylin支持ANSI SQL接口(大多数SELECT函数)
能够连接Excel / Tableau以显示数据。
- Luke:Kylin的ODBC驱动程序与Tableau非常兼容,Excel / PowerBI即将推出。
如果您有更多问题,请告知我们。
感谢。
答案 1 :(得分:1)
看起来像“Kylin”http://www.kylin.io/是我的答案。这有我想要的所有要求甚至更多。我现在要尝试一下! :)