OLAP实时查询大量数据 - 选项

时间:2016-11-09 23:40:06

标签: hadoop cassandra presto druid nosql

我们有一个包含180亿行和100多列的OLAP表,Hive中的卷接近8TB。大多数列都是维度,我们也有很少的度量列。我们希望构建一个实时系统支持即席查询来运行仪表板应用程序,其中查询应该以10秒的延迟执行。

我们现在正在寻找构建这样一个实时特殊查询系统的选项,我们正在检查可能的选项,并且实际上正在努力选择一个正确的系统。我们正在看到

Presto ,可以用来直接查询hdfs,但是我们不确定它是否会支持这么大量的低延迟查询。

Cassandra ,根据查询构建预先聚合的视图。

德鲁伊,构建预先集中的视图并且看起来很有趣,但似乎没有任何企业支持。

我们实际上正在努力从这些组件中做出选择,而且我们也不确定是否错过了可能满足此要求的任何其他相关工具。

我们正在寻找能够与HDFS紧密交互的工具/数据库,如果它的读取性能对大容量有利,我们也可以考虑任何其他工具。

我请求您帮助指导我选择组件,如果我需要了解其他任何工具,请告诉我。

1 个答案:

答案 0 :(得分:1)

嗨,正如你在这里看到的那样https://cwiki.apache.org/confluence/display/Hive/Druid+Integration德鲁伊正在与Hive密切合作,这将完全支持你的用例,其中一些数据可以从像德鲁伊这样的快速数据存储中查询和重量级具有复杂连接的查询可以转到Hive。 另请注意,从上面列出的解决方案中,只有德鲁伊有一个强大的(次秒延迟)实时摄取firehose集成kafka,风暴,flink rabitMQ和列表继续... 从支持的角度来看,德鲁伊有一个非常有活力的开源社区,加上它被包括Yahoo NetFlix等大公司在内的数百家公司使用....此外,至少有2家公司将提供企业支持,即Hortonworks和Imply。